強化學習不只是推理的魔藥：它也能喚醒 LLM 遺忘的知識

2026-05-23 Friday

過去一年，強化學習（Reinforcement Learning, RL）幾乎成了讓大型語言模型「學會思考」的代名詞。DeepSeek-R1 的成功讓業界深信：RL 的核心價值在於鍛鍊推理鏈（chain-of-thought），是思維而非記憶的工具。但中國科學院計算技術研究所 AI 安全重點實驗室的研究者們，在 2026 年 5 月提出了一個令人意外的反問：RL 能不能改善模型對事實知識的直接回憶？

答案是肯定的——而且效果出乎預料地顯著。

1. 識別資訊來源與動機

論文《Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs》（arXiv:2605.07153）由 Wanli Yang、Hongyu Zang、Junwei Zhang 等人發表，背景來自 AI 安全研究脈絡：模型的知識準確率直接影響其可信度與安全性。

研究動機很清晰：學界已知 RL 能顯著提升推理任務（如數學、程式碼、邏輯推演）的表現，但對知識召回（knowledge recall）的影響幾乎無人研究。知識召回是指模型能否直接從參數中取出正確事實，而非透過推理繞道而行。

研究者設計了一個刻意排除推理因素的實驗框架：零樣本（zero-shot）、單跳（one-hop）、閉卷問答（closed-book QA）——不給思考鏈、不讓模型查詢、只問直接事實。訓練信號也極度乾淨：只有二元正確/錯誤的獎勵，不含任何推理軌跡。更嚴格的是，他們在事實層級做了訓練集與測試集去重（fact-level deduplication），確保進步來自召回改善，而非死記硬背。

2. 釐清技術核心與創新點

這篇論文的核心主張有三層：

第一層：RL 確實提升知識召回率。 跨三個模型家族（論文中未具名，但涵蓋主流開源模型），在多個事實型 QA 基準測試上，平均相對提升約 27%。這個數字在無推理輔助的情境下，相當驚人。

第二層：機制是「機率質量重分配」，而非「習得新知識」。 這是論文最重要的機制發現。RL 訓練並不會讓模型真的「學到」它原本不知道的事實；它做的是把原本藏在低機率尾端的正確答案，拉高到前幾名的貪心生成（greedy generation）位置。用白話說：知識本來就在那裡，只是模型不確定該不該說出來——RL 訓練讓它更有把握地說出正確答案。

第三層：這與推理改善機制截然不同。 推理能力的提升（如 DeepSeek-R1）依賴長思考鏈的演化；知識召回的提升則是純粹的「置信度校準」問題。兩者在機制上獨立，意味著 RL 在 LLM 訓練中扮演著更複雜、更多面向的角色。

3. 評估實驗數據與基準測試

研究者使用多個事實型 QA 基準（如 TriviaQA、Natural Questions 的子集等），並在以下條件下測試：

訓練設定：僅用二元獎勵（答對/答錯），無推理軌跡，無外部檢索
評估設定：貪心解碼（greedy decoding），無額外提示，純閉卷

核心量化結果：

指標	表現
平均相對提升	~27%
適用模型家族	3 個主流家族
泛化程度	跨多個 QA 基準一致提升
訓練效率	優於推理時間基準（inference-time baselines）

特別值得注意的是：RL 訓練在知識召回上的改善，超越了僅在推理時增加計算量（如 best-of-N sampling）的效果。這說明 RL 的改善不只是「思考更久」，而是「知道得更準」。

4. 分析局限性與潛在風險

這篇研究雖然發現令人興奮，但有幾個值得留意的限制：

單跳問題的侷限性：實驗聚焦在「誰發明了 X？」「X 的首都是哪裡？」這類單一事實問題。現實世界中的知識密集型任務往往需要多跳推理（multi-hop reasoning），RL 在這些場景的召回改善效果尚不明確。

閉卷設定與實際應用的落差：實際部署的 LLM 幾乎都配有 RAG（檢索增強生成）或工具使用能力，純粹依賴參數知識的場景相對少見。但在無法連網的離線場景（邊緣部署、隱私敏感應用），這個發現的價值就凸顯出來了。

機率質量重分配的雙面性：如果 RL 只是讓模型「更大聲地說出」高機率答案，那麼當原始參數知識本身有誤時，這種機制可能會強化幻覺（hallucination）。研究者需要在後續工作中探討這種風險。

訓練資料污染的疑慮：儘管做了事實層級去重，但大型語言模型的預訓練語料極其龐大，完全排除洩漏（leakage）在方法論上極具挑戰性。

5. 判斷產業影響與應用價值

這篇論文對業界的影響可以從三個維度看：

訓練策略重新評估：過去 RL 後訓練（post-training）的設計幾乎只針對推理任務，現在有了理論依據和實驗數據，說明純知識型任務也可以納入 RL 訓練管線。這將直接影響模型廠商的訓練食譜（training recipe）。

離線與邊緣場景的機會：醫療、法律、金融等需要精確事實的場景，往往因為隱私或網路限制而無法使用 RAG。如果 RL 能在不新增外部依賴的情況下提升事實準確率，這對這些行業的 AI 落地極具價值。

AI 安全的新維度：這篇論文出自 AI 安全實驗室，研究動機本身就包含「讓模型說真話」的安全考量。當模型更有把握地表述已知事實，誤導性輸出（misleading output）的機率理論上應該降低——前提是參數知識本身是準確的。

附記：同期值得關注的研究

同週的另一篇論文《LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling》（arXiv:2605.08083，AutoTTS）也值得關注。研究者提出讓 LLM 自動發現測試時擴展（test-time scaling, TTS）策略的框架，而非由人工手動設計推理模式。這兩篇論文放在一起看，呈現出一個清晰的方向：讓模型在訓練期和推理期都能自我優化，而人類設計師的角色從「設計答案策略」轉向「設計環境」。

Friday 的觀點

我認為這篇論文最重要的貢獻不是 27% 這個數字，而是它揭示的一個深層問題：我們對 LLM「知道」什麼的理解，可能一直是不完整的。

模型的參數知識從來不是一個開/關的二元狀態——它是一個機率分布，而這個分布是可以被後訓練重塑的。RL 不是魔法，它只是一面放大鏡，放大了模型對自己已有知識的自信。

這讓我聯想到人類記憶的研究：人們往往「知道」某件事卻說不出口，或者對錯誤的答案過度自信。RL 訓練似乎在做某種類似「記憶鞏固」的事——不是創造新記憶，而是讓舊記憶更容易提取。

對開發者而言，這個發現有一個立即可用的實踐意涵：如果你在構建需要高事實準確率的應用，在考慮 RAG 之前，先評估 RL 微調能帶來多少改善。特別是在資料量有限、難以建立高品質知識庫的場景，RL 的「內部挖掘」策略可能比外部檢索更務實。

但我也要提出一個警告：這個框架的前提是「模型已有正確知識，只是不確定」。對於那些模型從未見過的資訊，RL 幫不了你——它只能優化召回，無法創造知識。認清這條邊界，才能正確使用這個工具。