RAFT Adapting Language Model to Domain Specific RAG

2024年12月18日 · 閱讀時間約 8 分鐘

AI Researcher @ Stima Research

RAFT一種在資訊檢索領域微調大型語言模型的方法。

RAFT Method

圖片載入錯誤

大型語言模型（LLMs）在特定場景中，對一般知識推理的重要性相對較低，如何提升精確度（Accuracy）才是關鍵目標。尤其是在特定領域中，如何有效整合檢索器與生成器，儼然成為本任務重中之重的挑戰。基於此，本文將探索如何讓 LLM 能更高效地利用領域知識，進而提升性能。

本文以提升 LLMs 在特定領域的適應性與準確性為核心目標，特別是在回答基於特定文檔的問題時，結合檢索結果與模型調適，以克服以下兩大挑戰：

此外，傳統的監督微調（Supervised Fine-Tuning，SFT）方法或 RAG（Retrieval-Augmented Generation）設置雖然提供部分解決的方案，但仍存在一些局限性：

為解決上述挑戰，本文提出一種結合指令式調整與 RAG 模型的新方法，稱為 檢索增強微調（Retrieval-Augmented Fine-Tuning, RAFT）。RAFT 旨在讓模型不僅能學習特定領域的知識，還能提升其在面對檢索結果不完美情況下的穩定性。研究的核心設計如下：

多樣化訓練樣本設置：透過調整訓練數據中「黃金文件」（即與答案高度相關的文檔）與干擾文檔的比例，讓訓練模型更好地平衡相關信息與無關信息之間的判斷力。
鏈式推理答案生成（Chain-of-Thought, CoT）：針對每個問題，生成帶有推理過程的答案，幫助模型學會在答案中體現思維邏輯，而非僅僅記憶結果。
引入干擾文檔：在訓練階段混合黃金文檔與干擾文檔，使模型學習如何辨別正確信息，以增強應對現實情況的能力。

RAFT 的訓練數據設置包含以下兩種類型，這種混合策略能在提升模型領域知識的同時，增強模型對檢索到不相關結果時的容錯能力：

為評估 RAFT 方法的有效性，本文設計以下基準模型進行對比：

圖片載入錯誤

Q1：訓練時是否始終需要黃金上下文？ A1：傳統觀點認為，訓練數據應始終包含黃金文件（P=100%），以最大化模型利用上下文的能力。然而，本研究表明：當黃金文件比例為 P=80% 時，模型在 RAG 任務上的性能反而有所提升。這表明適當比例的干擾文件可以幫助模型學習更具判斷力的內容篩選能力，減少對理想狀態的依賴。
Q2：CoT 答案對性能的提升？ A2：引入 CoT，不僅提升了模型的準確率，還能避免簡單答案導致的過度擬合問題。該方法特別適用於需要深入推理的問題場景，顯著增強了模型的泛化能力。

圖片載入錯誤

Q3：干擾文檔數量對模型性能的影響？ A3：本文進一步研究了在測試階段加入不同數量干擾文檔時，模型的穩健性如何受到影響。結果顯示，RAFT 模型對於無關信息的耐受性顯著優於基準模型，這得益於訓練中混合金標與干擾文檔的策略。

圖片載入錯誤

本文提出的 RAFT 方法，通過混合黃金上下文與干擾文檔，為 LLM 提供了一種在領域特定任務中提升準確性與穩健性的有效途徑。相較於傳統的監督微調和 RAG 方法，RAFT 的創新點包括：