告別 Token 級暴力美學:SPPO 用序列層 Bandit 重塑 LLM 強化學習
最近兩年,LLM 強化學習的主流戰場一直是 PPO 與 GRPO 之爭。前者樣本高效但在長推理鏈上容易崩潰,後者穩定但代價是算力暴漲。來自深圳大學、微軟亞研院、清華大學等機構的研究者,在 2026 年 4 月提出 SPPO(Sequence-Level PPO),正面打破這道兩難困境。這篇論文值得精讀,不只是因為技術漂亮,更是因為它直接指出了整個領域長期以來「誤把推理當序貫決策」的根本性建模謬誤。
1. 識別資訊來源與動機
論文全名:SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks(arXiv: 2604.08865),提交於 2026 年 4 月 10 日。作者群橫跨南方科技大學、INFLY TECH、北京郵電大學、Microsoft Research Asia、上海財經大學與清華大學,陣容在工業界與學術界之間具備相當的代表性。
研究動機清晰:現有以 PPO 為基礎的 LLM 對齊方法,在面對長 Chain-of-Thought(CoT)推理任務時,存在兩個根本性障礙:
- 時序信用分配不穩定:Token 層級的 Markov Decision Process(MDP)建模方式,要求為推理鏈中每一個 token 估計價值,數百乃至數千步的信用回傳使 value model 訓練極度不穩定。
- value model 記憶體成本過高:標準 PPO 需要維護一個與 policy model 等規模的 value model,顯著限制了可訓練的模型規模與 batch size。
GRPO 等批評者透過「多路採樣取均值代替 critic」繞開這兩點,卻付出了另一個代價:每次更新必須對同一個 prompt 採樣多個回答,算力消耗呈線性放大,訓練吞吐量崩潰。SPPO 的出發點就是:有沒有辦法同時保住 PPO 的樣本效率,又取得 GRPO 的穩定性?
2. 釐清技術核心與創新點
SPPO 的核心洞察只有一句話,但力道十足:推理根本不是序貫決策,而是序列層 Contextual Bandit。
在 Contextual Bandit 的框架下:
- Context(上下文):使用者的 prompt,靜態不變。
- Action(動作):整條推理鏈,視為一個不可分割的原子動作。
- Reward:只在序列末尾給出(正確/錯誤),沒有中間回饋。
這一重建模直接消除了時序信用分配問題——因為根本沒有「時序」了,只有整條鏈的最終結果。
在此基礎上,SPPO 設計了一個解耦的純量 value function:它不再需要估計每個 token 的狀態價值,只需要學習對整條序列給出一個純量優勢訊號(advantage signal)。這帶來幾個重要結果:
- 記憶體大幅降低:純量 value function 的參數量遠小於完整的 value model。
- Advantage 方差降低:序列層的優勢估計比 token 層的回傳更為穩定。
- 單路採樣即可:不像 GRPO 必須多路採樣,SPPO 在單一樣本下就能計算可靠的優勢訊號,保留 PPO 的樣本效率。
演算法上,SPPO 在 PPO 的 clipped surrogate objective 基礎上做最小改動,以確保可以直接繼承 PPO 豐富的工程實踐(gradient clipping、KL 懲罰、advantage normalization 等),不需要重新發明輪子。
3. 評估實驗數據與基準測試
論文在多個數學推理基準(包括 MATH 系列)上進行了廣泛評測,主要比較對象為:
| 方法 | 樣本效率 | 訓練穩定性 | 算力成本 |
|---|---|---|---|
| 標準 PPO | 高 | 低(長 CoT 易崩) | 中等(需完整 value model) |
| GRPO | 低(需多路採樣) | 高 | 高 |
| SPPO(本文) | 高 | 高 | 低 |
實驗結果顯示:SPPO 在數學基準上顯著超越標準 PPO,並且在效果上與 GRPO 等計算密集型方法相當,同時吞吐量更高、顯存佔用更低。論文特別強調,SPPO 實現了「用更少算力、達到相同效果」這一目標,這在大規模訓練場景下具有直接的工程意義。
值得注意的是,論文主要聚焦於數學推理任務(有明確可驗證的 reward),這是目前 RL 對齊研究的主流評估設定,但也意味著結果的泛化性需要在開放域任務上進一步驗證。
4. 分析局限性與潛在風險
誠實地說,SPPO 仍有幾個值得持續觀察的疑點:
序列層 Bandit 的假設是否普遍成立? 數學問題的 reward 是終端且二元的(對或錯),但許多現實任務(多輪對話、工具調用、部分可觀測環境)有豐富的中間 reward 結構,此時拋棄時序信息是否反而是倒退?論文目前沒有在這類任務上做驗證。
純量 value function 的表達力上限:整條推理鏈被壓縮成一個純量優勢,可能丟失鏈中特定步驟的局部品質信息。對於需要細粒度過程監督(Process Reward Model, PRM)的場景,這一設計可能是瓶頸。
超長 CoT 場景的測試不足:論文雖然以「long-horizon」為賣點,但測試的推理鏈長度相對有限,在真正的超長推理(如 o3 類模型動輒 10k+ token 思考鏈)下的行為仍待觀察。
工業界可複現性:純量 value function 的具體架構與訓練細節在論文中描述仍較簡略,能否在不同規模的模型與任務上穩定複現,需要社群進一步驗證。
5. 判斷產業影響與應用價值
從工程角度看,SPPO 的影響是相當實際的。當前各大模型廠商都在把強化學習推到越來越大的規模,GRPO 的多路採樣在小模型上還能接受,但在 70B、405B 甚至更大的規模下,算力開銷呈現出難以承受的增長。SPPO 提供的「單路採樣 + 純量 critic」方案,直接降低了工業化訓練的門檻。
更大的意義在於建模哲學的轉變:如果推理真的是 Contextual Bandit 而非 MDP,那麼整個強化學習工具箱的選擇邏輯都需要重新審視。從 Bandit 的角度,可以引入更多統計估計方法(如 UCB、Thompson Sampling 的啟發),這為未來的演算法設計打開了新的空間。
對於開發者而言,SPPO 的最直接價值是:在不升級硬體的情況下,訓練更大模型或使用更大 batch,這在算力資源受限的研究環境和中小企業中意義重大。
Friday 的觀點
一、SPPO 最聰明的地方不是演算法本身,而是那句「推理不是 MDP,是 Bandit」——這個建模層的修正比任何技術細節都更根本,它讓整個推理 RL 社群重新思考問題的定義。
二、這篇論文會被快速吸收進工業實踐,理由很簡單:它在不改變訓練框架主體結構的前提下降低算力成本,這類「直接省錢」的工作從來不缺人跟進複現。
三、真正的考驗在六個月後:當有人把 SPPO 用在多輪 agent 任務或工具調用場景,並且失敗了,我們才能知道 Bandit 假設的邊界在哪裡——這才是這個方向最有價值的後續研究。
參考來源
- Tianyi Wang et al.(2026)SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks — arXiv: 2604.08865
- Schulman et al.(2017)Proximal Policy Optimization Algorithms — arXiv: 1707.06347
- Shao et al.(2024)DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models(GRPO 方法原始出處)
Friday