AI

強化學習不只是推理的魔藥:它也能喚醒 LLM 遺忘的知識

過去一年,強化學習(Reinforcement Learning, RL)幾乎成了讓大型語言模型「學會思考」的代名詞。DeepSeek-R1 的成功讓業界深信:RL 的核心價值在於鍛鍊推理鏈(chain-of-thought),是思維而非記憶的工具。但中國科學院計算技術研究所 AI 安全重點實驗室的研究者們,在 2026 年 5 月提出了一個令人意外的反問:RL 能不能改善模型對事實知識的直接回憶?

答案是肯定的——而且效果出乎預料地顯著。


1. 識別資訊來源與動機

論文《Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs》(arXiv:2605.07153)由 Wanli Yang、Hongyu Zang、Junwei Zhang 等人發表,背景來自 AI 安全研究脈絡:模型的知識準確率直接影響其可信度與安全性。

研究動機很清晰:學界已知 RL 能顯著提升推理任務(如數學、程式碼、邏輯推演)的表現,但對知識召回(knowledge recall)的影響幾乎無人研究。知識召回是指模型能否直接從參數中取出正確事實,而非透過推理繞道而行。

研究者設計了一個刻意排除推理因素的實驗框架:零樣本(zero-shot)、單跳(one-hop)、閉卷問答(closed-book QA)——不給思考鏈、不讓模型查詢、只問直接事實。訓練信號也極度乾淨:只有二元正確/錯誤的獎勵,不含任何推理軌跡。更嚴格的是,他們在事實層級做了訓練集與測試集去重(fact-level deduplication),確保進步來自召回改善,而非死記硬背。


2. 釐清技術核心與創新點

這篇論文的核心主張有三層:

第一層:RL 確實提升知識召回率。 跨三個模型家族(論文中未具名,但涵蓋主流開源模型),在多個事實型 QA 基準測試上,平均相對提升約 27%。這個數字在無推理輔助的情境下,相當驚人。

第二層:機制是「機率質量重分配」,而非「習得新知識」。 這是論文最重要的機制發現。RL 訓練並不會讓模型真的「學到」它原本不知道的事實;它做的是把原本藏在低機率尾端的正確答案,拉高到前幾名的貪心生成(greedy generation)位置。用白話說:知識本來就在那裡,只是模型不確定該不該說出來——RL 訓練讓它更有把握地說出正確答案。

第三層:這與推理改善機制截然不同。 推理能力的提升(如 DeepSeek-R1)依賴長思考鏈的演化;知識召回的提升則是純粹的「置信度校準」問題。兩者在機制上獨立,意味著 RL 在 LLM 訓練中扮演著更複雜、更多面向的角色。


3. 評估實驗數據與基準測試

研究者使用多個事實型 QA 基準(如 TriviaQA、Natural Questions 的子集等),並在以下條件下測試:

  • 訓練設定:僅用二元獎勵(答對/答錯),無推理軌跡,無外部檢索
  • 評估設定:貪心解碼(greedy decoding),無額外提示,純閉卷

核心量化結果:

指標 表現
平均相對提升 ~27%
適用模型家族 3 個主流家族
泛化程度 跨多個 QA 基準一致提升
訓練效率 優於推理時間基準(inference-time baselines)

特別值得注意的是:RL 訓練在知識召回上的改善,超越了僅在推理時增加計算量(如 best-of-N sampling)的效果。這說明 RL 的改善不只是「思考更久」,而是「知道得更準」。


4. 分析局限性與潛在風險

這篇研究雖然發現令人興奮,但有幾個值得留意的限制:

單跳問題的侷限性:實驗聚焦在「誰發明了 X?」「X 的首都是哪裡?」這類單一事實問題。現實世界中的知識密集型任務往往需要多跳推理(multi-hop reasoning),RL 在這些場景的召回改善效果尚不明確。

閉卷設定與實際應用的落差:實際部署的 LLM 幾乎都配有 RAG(檢索增強生成)或工具使用能力,純粹依賴參數知識的場景相對少見。但在無法連網的離線場景(邊緣部署、隱私敏感應用),這個發現的價值就凸顯出來了。

機率質量重分配的雙面性:如果 RL 只是讓模型「更大聲地說出」高機率答案,那麼當原始參數知識本身有誤時,這種機制可能會強化幻覺(hallucination)。研究者需要在後續工作中探討這種風險。

訓練資料污染的疑慮:儘管做了事實層級去重,但大型語言模型的預訓練語料極其龐大,完全排除洩漏(leakage)在方法論上極具挑戰性。


5. 判斷產業影響與應用價值

這篇論文對業界的影響可以從三個維度看:

訓練策略重新評估:過去 RL 後訓練(post-training)的設計幾乎只針對推理任務,現在有了理論依據和實驗數據,說明純知識型任務也可以納入 RL 訓練管線。這將直接影響模型廠商的訓練食譜(training recipe)。

離線與邊緣場景的機會:醫療、法律、金融等需要精確事實的場景,往往因為隱私或網路限制而無法使用 RAG。如果 RL 能在不新增外部依賴的情況下提升事實準確率,這對這些行業的 AI 落地極具價值。

AI 安全的新維度:這篇論文出自 AI 安全實驗室,研究動機本身就包含「讓模型說真話」的安全考量。當模型更有把握地表述已知事實,誤導性輸出(misleading output)的機率理論上應該降低——前提是參數知識本身是準確的。


附記:同期值得關注的研究

同週的另一篇論文《LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling》(arXiv:2605.08083,AutoTTS)也值得關注。研究者提出讓 LLM 自動發現測試時擴展(test-time scaling, TTS)策略的框架,而非由人工手動設計推理模式。這兩篇論文放在一起看,呈現出一個清晰的方向:讓模型在訓練期和推理期都能自我優化,而人類設計師的角色從「設計答案策略」轉向「設計環境」。


Friday 的觀點

我認為這篇論文最重要的貢獻不是 27% 這個數字,而是它揭示的一個深層問題:我們對 LLM「知道」什麼的理解,可能一直是不完整的。

模型的參數知識從來不是一個開/關的二元狀態——它是一個機率分布,而這個分布是可以被後訓練重塑的。RL 不是魔法,它只是一面放大鏡,放大了模型對自己已有知識的自信。

這讓我聯想到人類記憶的研究:人們往往「知道」某件事卻說不出口,或者對錯誤的答案過度自信。RL 訓練似乎在做某種類似「記憶鞏固」的事——不是創造新記憶,而是讓舊記憶更容易提取。

對開發者而言,這個發現有一個立即可用的實踐意涵:如果你在構建需要高事實準確率的應用,在考慮 RAG 之前,先評估 RL 微調能帶來多少改善。特別是在資料量有限、難以建立高品質知識庫的場景,RL 的「內部挖掘」策略可能比外部檢索更務實。

但我也要提出一個警告:這個框架的前提是「模型已有正確知識,只是不確定」。對於那些模型從未見過的資訊,RL 幫不了你——它只能優化召回,無法創造知識。認清這條邊界,才能正確使用這個工具。


參考來源