RL 其實沒在教 LLM 新技能？稀疏策略選擇顛覆強化學習主流敘事

2026-05-09 Friday

兩年來，強化學習（RL）幾乎已成為提升大型語言模型推理能力的標準配方——RLHF、GRPO、PPO 輪番上陣，各大實驗室投入龐大算力。但 5 月這篇來自 arXiv 的論文給了所有人一記冷水：RL 可能根本沒有教會模型任何新東西。

1. 識別資訊來源與動機

論文 Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning（arXiv:2605.06241）由多位研究者共同完成，研究動機來自一個反覆被忽視的觀察：經過 RL 訓練的模型，在推理基準測試上確實變好了，但如果仔細問「它學到了什麼新策略？」，答案卻語焉不詳。

作者決定用 token 層級分析直接拆解 RL 的影響足跡，跨越多個模型家族（包含不同規模的開源模型）和多種 RL 演算法，試圖找出 RL 究竟在修改什麼。

2. 釐清技術核心與創新點

研究最核心的發現可以用一句話概括：RL 的有效作用極度稀疏，而且只在模型原本就「猶豫不決」的地方起效。

具體而言，作者發現：

只有 1–3% 的 token 位置受到 RL 訓練的實質影響，其餘 97–99% 幾乎不變。
在這些受影響的位置，RL 選中的 token 始終位於 base model 自身的 top-5 候選之內。換言之，RL 沒有引入任何基礎模型之外的「新詞彙」或「新策略」，它只是在既有選項之間換了一個更好的選擇。
這些高影響力位置，可以用 base model 自身的 entropy（熵值） 提前識別——entropy 高的地方代表模型不確定，RL 就在這裡出手修正。

這個框架作者稱為「稀疏策略選擇（Sparse Policy Selection）」，對立於傳統的「能力習得（Capability Learning）」敘事。簡單說：RL 是一位嚴格的編輯，不是一位老師。

基於此洞見，作者提出了 ReasonMaxxer——一個完全不需要 RL 的方法。它的做法是：先用 base model 的 entropy 找出決策關鍵點，再在這些點上施加對比損失（contrastive loss）進行微調。

3. 評估實驗數據與基準測試

結果相當驚人。論文在以下條件下測試 ReasonMaxxer：

三個不同模型家族（涵蓋多種架構）
六種不同模型規模（從小到大）
六個數學推理基準（包含 MATH、GSM8K 等標準測試集）

ReasonMaxxer 在幾乎所有組合下與完整的 RL 訓練持平或略勝，而訓練成本卻只需要：

幾十道題目（而非 RL 需要的大量 rollout）
單張 GPU、數分鐘即可完成
訓練算力節省約 三個數量級（1000 倍）

這是一個令人難以置信的效率跳躍。如果結果能被重現，業界對 RL scaling 的一些核心假設需要徹底重審。

4. 分析局限性與潛在風險

這篇論文的主張相當大膽，需要帶著幾個問號閱讀：

一、數學推理的侷限性：實驗集中在數學問題，這類任務答案明確、易於驗證。在開放式生成、多步推理、工具使用等場景，「稀疏策略選擇」是否仍然成立，論文尚未回答。

二、base model 品質的前提：整個框架建立在「base model 已經有能力選出好答案，只是機率分配不理想」這個前提上。如果 base model 根本沒有正確答案的「潛能」，那 RL 或 ReasonMaxxer 都可能無計可施。這意味著此研究更適合解釋中高品質基礎模型的 RL 增益，而非從頭訓練的場景。

三、可重現性挑戰：1-3% 這個數字背後的測量方法（如何定義「實質影響」）需要仔細審查。不同的閾值設定可能改變結論的強度。

四、ReasonMaxxer 尚未被廣泛驗證：這是論文的首次提出，需要其他研究者的複現實驗才能確認其普遍性。

5. 判斷產業影響與應用價值

如果這篇論文的結論成立，影響是多層次的：

對小型實驗室和個人研究者最利好：RL 訓練的計算成本一直是中小型玩家進入推理模型競賽的最大門檻。若 ReasonMaxxer 類方法能以幾十道題、幾分鐘訓練達到同等效果，這扇門大幅降低了。

對目前 RL scaling 投資的質疑：OpenAI、Google、Anthropic 等大廠正在 RL 上投入大量算力。「稀疏策略選擇」框架如果成立，代表現有 RL 工程中有大量無效計算。這不會讓 RL 完全消失，但會推動業界重新評估計算分配方式。

對 LLM 能力邊界的重要提示：更根本的影響在認識論層面——如果 RL 無法讓模型學到「新技能」，那麼我們對「訓練後對齊（post-training alignment）」能達到什麼，應該要更謹慎。真正的能力突破或許仍然需要在 pre-training 階段解決。

Friday 的觀點

這篇論文最有價值的部分不是 ReasonMaxxer 本身，而是它提供了一個可操作的測量框架：用 base model 的 entropy 地圖去追蹤訓練的實際影響。這個方法論如果被廣泛採用，會讓整個 RL 訓練領域更透明，減少很多「黑箱調參」式的實驗。

「RL 只是在既有選項裡選更好的」這個結論聽起來是在貶低 RL，但換個角度：它說明了高品質 pre-training 的不可替代性——如果基礎模型的「詞彙表」裡沒有正確策略，任何後訓練方法都是巧婦難為無米之炊。

最終最重要的問題是：這個結論對 long-horizon reasoning、工具使用、多步規劃是否仍然成立？如果在這些場景 RL 確實引入了 base model 沒有的策略，那「稀疏策略選擇」就只是數學推理的局部現象，而非普遍定律。接下來幾個月的複現研究，值得密切追蹤。

參考來源

Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning — arXiv:2605.06241
The Scaling Properties of Implicit Deductive Reasoning in Transformers — arXiv:2605.04330