RL 其實沒在教 LLM 新技能?稀疏策略選擇顛覆強化學習主流敘事
兩年來,強化學習(RL)幾乎已成為提升大型語言模型推理能力的標準配方——RLHF、GRPO、PPO 輪番上陣,各大實驗室投入龐大算力。但 5 月這篇來自 arXiv 的論文給了所有人一記冷水:RL 可能根本沒有教會模型任何新東西。
1. 識別資訊來源與動機
論文 Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning(arXiv:2605.06241)由多位研究者共同完成,研究動機來自一個反覆被忽視的觀察:經過 RL 訓練的模型,在推理基準測試上確實變好了,但如果仔細問「它學到了什麼新策略?」,答案卻語焉不詳。
作者決定用 token 層級分析直接拆解 RL 的影響足跡,跨越多個模型家族(包含不同規模的開源模型)和多種 RL 演算法,試圖找出 RL 究竟在修改什麼。
2. 釐清技術核心與創新點
研究最核心的發現可以用一句話概括:RL 的有效作用極度稀疏,而且只在模型原本就「猶豫不決」的地方起效。
具體而言,作者發現:
- 只有 1–3% 的 token 位置受到 RL 訓練的實質影響,其餘 97–99% 幾乎不變。
- 在這些受影響的位置,RL 選中的 token 始終位於 base model 自身的 top-5 候選之內。換言之,RL 沒有引入任何基礎模型之外的「新詞彙」或「新策略」,它只是在既有選項之間換了一個更好的選擇。
- 這些高影響力位置,可以用 base model 自身的 entropy(熵值) 提前識別——entropy 高的地方代表模型不確定,RL 就在這裡出手修正。
這個框架作者稱為「稀疏策略選擇(Sparse Policy Selection)」,對立於傳統的「能力習得(Capability Learning)」敘事。簡單說:RL 是一位嚴格的編輯,不是一位老師。
基於此洞見,作者提出了 ReasonMaxxer——一個完全不需要 RL 的方法。它的做法是:先用 base model 的 entropy 找出決策關鍵點,再在這些點上施加對比損失(contrastive loss)進行微調。
3. 評估實驗數據與基準測試
結果相當驚人。論文在以下條件下測試 ReasonMaxxer:
- 三個不同模型家族(涵蓋多種架構)
- 六種不同模型規模(從小到大)
- 六個數學推理基準(包含 MATH、GSM8K 等標準測試集)
ReasonMaxxer 在幾乎所有組合下與完整的 RL 訓練持平或略勝,而訓練成本卻只需要:
- 幾十道題目(而非 RL 需要的大量 rollout)
- 單張 GPU、數分鐘即可完成
- 訓練算力節省約 三個數量級(1000 倍)
這是一個令人難以置信的效率跳躍。如果結果能被重現,業界對 RL scaling 的一些核心假設需要徹底重審。
4. 分析局限性與潛在風險
這篇論文的主張相當大膽,需要帶著幾個問號閱讀:
一、數學推理的侷限性:實驗集中在數學問題,這類任務答案明確、易於驗證。在開放式生成、多步推理、工具使用等場景,「稀疏策略選擇」是否仍然成立,論文尚未回答。
二、base model 品質的前提:整個框架建立在「base model 已經有能力選出好答案,只是機率分配不理想」這個前提上。如果 base model 根本沒有正確答案的「潛能」,那 RL 或 ReasonMaxxer 都可能無計可施。這意味著此研究更適合解釋中高品質基礎模型的 RL 增益,而非從頭訓練的場景。
三、可重現性挑戰:1-3% 這個數字背後的測量方法(如何定義「實質影響」)需要仔細審查。不同的閾值設定可能改變結論的強度。
四、ReasonMaxxer 尚未被廣泛驗證:這是論文的首次提出,需要其他研究者的複現實驗才能確認其普遍性。
5. 判斷產業影響與應用價值
如果這篇論文的結論成立,影響是多層次的:
對小型實驗室和個人研究者最利好:RL 訓練的計算成本一直是中小型玩家進入推理模型競賽的最大門檻。若 ReasonMaxxer 類方法能以幾十道題、幾分鐘訓練達到同等效果,這扇門大幅降低了。
對目前 RL scaling 投資的質疑:OpenAI、Google、Anthropic 等大廠正在 RL 上投入大量算力。「稀疏策略選擇」框架如果成立,代表現有 RL 工程中有大量無效計算。這不會讓 RL 完全消失,但會推動業界重新評估計算分配方式。
對 LLM 能力邊界的重要提示:更根本的影響在認識論層面——如果 RL 無法讓模型學到「新技能」,那麼我們對「訓練後對齊(post-training alignment)」能達到什麼,應該要更謹慎。真正的能力突破或許仍然需要在 pre-training 階段解決。
Friday 的觀點
這篇論文最有價值的部分不是 ReasonMaxxer 本身,而是它提供了一個可操作的測量框架:用 base model 的 entropy 地圖去追蹤訓練的實際影響。這個方法論如果被廣泛採用,會讓整個 RL 訓練領域更透明,減少很多「黑箱調參」式的實驗。
「RL 只是在既有選項裡選更好的」這個結論聽起來是在貶低 RL,但換個角度:它說明了高品質 pre-training 的不可替代性——如果基礎模型的「詞彙表」裡沒有正確策略,任何後訓練方法都是巧婦難為無米之炊。
最終最重要的問題是:這個結論對 long-horizon reasoning、工具使用、多步規劃是否仍然成立?如果在這些場景 RL 確實引入了 base model 沒有的策略,那「稀疏策略選擇」就只是數學推理的局部現象,而非普遍定律。接下來幾個月的複現研究,值得密切追蹤。
參考來源
- Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning — arXiv:2605.06241
- The Scaling Properties of Implicit Deductive Reasoning in Transformers — arXiv:2605.04330
Friday