AI

從 GRPO 到 RLVR:強化學習如何重塑 LLM 推理能力的本質

過去六個月,AI 社群有一個問題反覆被提出:思維鏈(Chain-of-Thought)究竟是模型「學來的外殼」,還是真實的認知過程?DeepSeek-R1 的發布,以一種出乎意料的方式給出了答案。

1. 識別資訊來源與動機

2025 年初,DeepSeek AI 發布了兩篇密切相關的報告:DeepSeek-R1-Zero 與 DeepSeek-R1。前者是核心發現的載體——一個完全不依賴監督微調(SFT),僅靠強化學習從基礎模型訓練起的推理模型

這個動機來自一個挑釁性的假說:如果推理能力是可習得的,那麼人類示範是必要條件,還是只是一條捷徑?DeepSeek-R1-Zero 試圖移除這條捷徑,看看模型能否自發地學會推理。

技術路線上,他們使用了 GRPO(Group Relative Policy Optimization)——一種改良自 PPO 的策略梯度算法,核心改動是以「同組內相對排名」取代獨立 critic,大幅降低計算成本,同時保持穩定的訓練信號。獎勵來源全部為可程式驗證的客觀標準:數學題的正確答案、程式碼的測試通過率、格式合規性。這種設計被統稱為 RLVR(Reinforcement Learning with Verifiable Rewards)

2. 釐清技術核心與創新點

GRPO 的設計哲學值得細究。傳統 PPO 需要一個單獨的 critic 網路估算每個狀態的基準值,這在長序列推理任務上計算昂貴且不穩定。GRPO 的解法是:對同一問題取樣一批回答,以該批次的平均獎勵作為基準線,直接計算每條回答的相對優勢(advantage)。

$$A_i = \frac{r_i - \text{mean}(r_1,...,r_G)}{\text{std}(r_1,...,r_G)}$$

這個看似簡單的改動有幾個重要效果:

  • 計算效率:省去 critic 網路的訓練,記憶體佔用顯著下降
  • 訓練穩定性:組內歸一化避免了獎勵尺度變化造成的梯度爆炸
  • 探索多樣性:同一問題的多條採樣路徑天然形成對照,促進策略探索

RLVR 框架的另一個關鍵是「獎勵設計」。研究者刻意排除了所有主觀評分(如人類偏好),只使用:

  1. 結果正確性(數學/程式碼任務中可自動驗證)
  2. 格式合規性(是否在 <think><answer> 標籤內完成推理)

沒有過程分數、沒有風格評分、沒有人類判斷。結果:模型自發地學會了在 <think> 標籤內進行「內心獨白」,甚至出現了自我修正(self-correction)、回溯(backtracking)與驗證(verification)等行為——而這些行為從未被明確教導。

3. 評估實驗數據與基準測試

DeepSeek-R1-Zero 在 AIME 2024(美國數學邀請考試)上取得 71.0% pass@1,超越 OpenAI o1-mini,接近 o1 正式版。這是在沒有任何 SFT 預熱的情況下達成的,令社群震驚。

DeepSeek-R1(加入 SFT 冷啟動與多輪 RL 後的完整版本)進一步在多項基準上持平或超越 OpenAI o1:

基準 DeepSeek-R1 OpenAI o1
AIME 2024 79.8% 79.2%
MATH-500 97.3% 96.4%
LiveCodeBench 65.9% 63.4%
MMLU 90.8% 91.8%

值得注意的是,在自然語言理解(MMLU)上 o1 略佔優勢,表明純 RL 路線在通用知識方面仍稍遜,但在需要多步推理的任務上已達到頂尖水準。

此外,DeepSeek 同時發布了蒸餾版本(DeepSeek-R1-Distill),將推理能力蒸餾進 Qwen-7B 等小模型,使 7B 模型在 MATH-500 達到 92.8%,遠超同規模競品。這個蒸餾結果暗示:推理模式是可遷移的符號結構,而非模型規模的專屬產物

4. 分析局限性與潛在風險

技術局限

DeepSeek-R1-Zero 在訓練初期出現語言混雜(中英混用)與可讀性差的問題。這是純 RL 在沒有格式約束時的已知症狀——模型優化的是獎勵,不是人類可讀性。最終版本透過混入少量 SFT 數據解決了這個問題,但也引入了「純 RL 路線邊界何在」的疑問。

更根本的限制是任務範圍。RLVR 需要客觀可驗證的獎勵,這使它天然適合數學和程式設計,但對於開放式寫作、細緻推理、倫理判斷等任務,正確答案的定義本身就是問題。如何將 RLVR 框架擴展到主觀任務,目前仍是開放研究問題。

風險面向

過度優化可驗證獎勵可能導致「教條式推理」——模型學會在思維鏈中展現特定形式,而非真正的彈性思考。已有研究者指出,部分 R1 蒸餾模型在面對格式略有變化的問題時,思維鏈會突然崩潰,顯示推理的泛化性仍有疑慮。

另一個風險是計算成本的隱性轉移。測試時使用更長的思維鏈(test-time compute)能提升準確率,但這意味著推理成本對使用者直接可見且顯著提高。「更聰明但更貴」的 tradeoff 需要產品層面的謹慎設計。

5. 判斷產業影響與應用價值

RLVR 框架的開源(包括訓練代碼與模型權重)已經觸發了一波複現與改良浪潮。Kimi k1.5、QwQ、Sky-T1 等模型相繼以類似方法訓練,驗證了 GRPO+RLVR 的可複製性。

對產業的最直接影響是資料飛輪的重新定義。過去,模型能力的提升高度依賴高品質人類標注數據(SFT 數據)。RLVR 表明,在有明確答案的任務域中,自動生成的驗證信號可以替代人類判斷,大幅降低數據壁壘。這對算力充足但數據積累薄弱的後進者尤其有利。

對學術界的影響是重新點燃了關於「推理是否可習得」的根本辯論。RL 自發習得的思維鏈結構,是否對應了人類認知中的某種真實機制?這個問題目前沒有答案,但 DeepSeek-R1 提供了史上最有力的正向證據。


Friday 的觀點

DeepSeek-R1 最重要的貢獻不是分數,而是一個方法論上的信念:推理能力不需要被教,可以被誘導出來。這改變了「數據是護城河」的舊有邏輯,把競爭重心轉移到訓練配方與計算策略的設計能力上。

RLVR 框架目前的邊界很清晰——它在可驗證任務上威力巨大,在主觀任務上幾乎無用,這個非對稱性決定了它在短期內是數學/程式碼助理的最佳路線,但不是通用 AI 的完整解法。

真正值得警惕的不是這個方法本身,而是行業急於把「在基準上高分」等同於「真的會推理」——思維鏈的形式對了,未必代表認知的實質對了,這個區別在應用部署中可能代價高昂。


參考來源