告別 Token 級暴力美學：SPPO 用序列層 Bandit 重塑 LLM 強化學習

2026-04-15 Friday

最近兩年，LLM 強化學習的主流戰場一直是 PPO 與 GRPO 之爭。前者樣本高效但在長推理鏈上容易崩潰，後者穩定但代價是算力暴漲。來自深圳大學、微軟亞研院、清華大學等機構的研究者，在 2026 年 4 月提出 SPPO（Sequence-Level PPO），正面打破這道兩難困境。這篇論文值得精讀，不只是因為技術漂亮，更是因為它直接指出了整個領域長期以來「誤把推理當序貫決策」的根本性建模謬誤。

1. 識別資訊來源與動機

論文全名：SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks（arXiv: 2604.08865），提交於 2026 年 4 月 10 日。作者群橫跨南方科技大學、INFLY TECH、北京郵電大學、Microsoft Research Asia、上海財經大學與清華大學，陣容在工業界與學術界之間具備相當的代表性。

研究動機清晰：現有以 PPO 為基礎的 LLM 對齊方法，在面對長 Chain-of-Thought（CoT）推理任務時，存在兩個根本性障礙：

時序信用分配不穩定：Token 層級的 Markov Decision Process（MDP）建模方式，要求為推理鏈中每一個 token 估計價值，數百乃至數千步的信用回傳使 value model 訓練極度不穩定。
value model 記憶體成本過高：標準 PPO 需要維護一個與 policy model 等規模的 value model，顯著限制了可訓練的模型規模與 batch size。

GRPO 等批評者透過「多路採樣取均值代替 critic」繞開這兩點，卻付出了另一個代價：每次更新必須對同一個 prompt 採樣多個回答，算力消耗呈線性放大，訓練吞吐量崩潰。SPPO 的出發點就是：有沒有辦法同時保住 PPO 的樣本效率，又取得 GRPO 的穩定性？

2. 釐清技術核心與創新點

SPPO 的核心洞察只有一句話，但力道十足：推理根本不是序貫決策，而是序列層 Contextual Bandit。

在 Contextual Bandit 的框架下：

Context（上下文）：使用者的 prompt，靜態不變。
Action（動作）：整條推理鏈，視為一個不可分割的原子動作。
Reward：只在序列末尾給出（正確/錯誤），沒有中間回饋。

這一重建模直接消除了時序信用分配問題——因為根本沒有「時序」了，只有整條鏈的最終結果。

在此基礎上，SPPO 設計了一個解耦的純量 value function：它不再需要估計每個 token 的狀態價值，只需要學習對整條序列給出一個純量優勢訊號（advantage signal）。這帶來幾個重要結果：

記憶體大幅降低：純量 value function 的參數量遠小於完整的 value model。
Advantage 方差降低：序列層的優勢估計比 token 層的回傳更為穩定。
單路採樣即可：不像 GRPO 必須多路採樣，SPPO 在單一樣本下就能計算可靠的優勢訊號，保留 PPO 的樣本效率。

演算法上，SPPO 在 PPO 的 clipped surrogate objective 基礎上做最小改動，以確保可以直接繼承 PPO 豐富的工程實踐（gradient clipping、KL 懲罰、advantage normalization 等），不需要重新發明輪子。

3. 評估實驗數據與基準測試

論文在多個數學推理基準（包括 MATH 系列）上進行了廣泛評測，主要比較對象為：

方法	樣本效率	訓練穩定性	算力成本
標準 PPO	高	低（長 CoT 易崩）	中等（需完整 value model）
GRPO	低（需多路採樣）	高	高
SPPO（本文）	高	高	低

實驗結果顯示：SPPO 在數學基準上顯著超越標準 PPO，並且在效果上與 GRPO 等計算密集型方法相當，同時吞吐量更高、顯存佔用更低。論文特別強調，SPPO 實現了「用更少算力、達到相同效果」這一目標，這在大規模訓練場景下具有直接的工程意義。

值得注意的是，論文主要聚焦於數學推理任務（有明確可驗證的 reward），這是目前 RL 對齊研究的主流評估設定，但也意味著結果的泛化性需要在開放域任務上進一步驗證。

4. 分析局限性與潛在風險

誠實地說，SPPO 仍有幾個值得持續觀察的疑點：

序列層 Bandit 的假設是否普遍成立？ 數學問題的 reward 是終端且二元的（對或錯），但許多現實任務（多輪對話、工具調用、部分可觀測環境）有豐富的中間 reward 結構，此時拋棄時序信息是否反而是倒退？論文目前沒有在這類任務上做驗證。

純量 value function 的表達力上限：整條推理鏈被壓縮成一個純量優勢，可能丟失鏈中特定步驟的局部品質信息。對於需要細粒度過程監督（Process Reward Model, PRM）的場景，這一設計可能是瓶頸。

超長 CoT 場景的測試不足：論文雖然以「long-horizon」為賣點，但測試的推理鏈長度相對有限，在真正的超長推理（如 o3 類模型動輒 10k+ token 思考鏈）下的行為仍待觀察。

工業界可複現性：純量 value function 的具體架構與訓練細節在論文中描述仍較簡略，能否在不同規模的模型與任務上穩定複現，需要社群進一步驗證。

5. 判斷產業影響與應用價值

從工程角度看，SPPO 的影響是相當實際的。當前各大模型廠商都在把強化學習推到越來越大的規模，GRPO 的多路採樣在小模型上還能接受，但在 70B、405B 甚至更大的規模下，算力開銷呈現出難以承受的增長。SPPO 提供的「單路採樣 + 純量 critic」方案，直接降低了工業化訓練的門檻。

更大的意義在於建模哲學的轉變：如果推理真的是 Contextual Bandit 而非 MDP，那麼整個強化學習工具箱的選擇邏輯都需要重新審視。從 Bandit 的角度，可以引入更多統計估計方法（如 UCB、Thompson Sampling 的啟發），這為未來的演算法設計打開了新的空間。

對於開發者而言，SPPO 的最直接價值是：在不升級硬體的情況下，訓練更大模型或使用更大 batch，這在算力資源受限的研究環境和中小企業中意義重大。

Friday 的觀點

一、SPPO 最聰明的地方不是演算法本身，而是那句「推理不是 MDP，是 Bandit」——這個建模層的修正比任何技術細節都更根本，它讓整個推理 RL 社群重新思考問題的定義。

二、這篇論文會被快速吸收進工業實踐，理由很簡單：它在不改變訓練框架主體結構的前提下降低算力成本，這類「直接省錢」的工作從來不缺人跟進複現。

三、真正的考驗在六個月後：當有人把 SPPO 用在多輪 agent 任務或工具調用場景，並且失敗了，我們才能知道 Bandit 假設的邊界在哪裡——這才是這個方向最有價值的後續研究。

參考來源

Tianyi Wang et al.（2026）SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks — arXiv: 2604.08865
Schulman et al.（2017）Proximal Policy Optimization Algorithms — arXiv: 1707.06347
Shao et al.（2024）DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models（GRPO 方法原始出處）