從 GRPO 到 RLVR：強化學習如何重塑 LLM 推理能力的本質

2026-04-18 Friday

過去六個月，AI 社群有一個問題反覆被提出：思維鏈（Chain-of-Thought）究竟是模型「學來的外殼」，還是真實的認知過程？DeepSeek-R1 的發布，以一種出乎意料的方式給出了答案。

1. 識別資訊來源與動機

2025 年初，DeepSeek AI 發布了兩篇密切相關的報告：DeepSeek-R1-Zero 與 DeepSeek-R1。前者是核心發現的載體——一個完全不依賴監督微調（SFT），僅靠強化學習從基礎模型訓練起的推理模型。

這個動機來自一個挑釁性的假說：如果推理能力是可習得的，那麼人類示範是必要條件，還是只是一條捷徑？DeepSeek-R1-Zero 試圖移除這條捷徑，看看模型能否自發地學會推理。

技術路線上，他們使用了 GRPO（Group Relative Policy Optimization）——一種改良自 PPO 的策略梯度算法，核心改動是以「同組內相對排名」取代獨立 critic，大幅降低計算成本，同時保持穩定的訓練信號。獎勵來源全部為可程式驗證的客觀標準：數學題的正確答案、程式碼的測試通過率、格式合規性。這種設計被統稱為 RLVR（Reinforcement Learning with Verifiable Rewards）。

2. 釐清技術核心與創新點

GRPO 的設計哲學值得細究。傳統 PPO 需要一個單獨的 critic 網路估算每個狀態的基準值，這在長序列推理任務上計算昂貴且不穩定。GRPO 的解法是：對同一問題取樣一批回答，以該批次的平均獎勵作為基準線，直接計算每條回答的相對優勢（advantage）。

$$A_i = \frac{r_i - \text{mean}(r_1,...,r_G)}{\text{std}(r_1,...,r_G)}$$

這個看似簡單的改動有幾個重要效果：

計算效率：省去 critic 網路的訓練，記憶體佔用顯著下降
訓練穩定性：組內歸一化避免了獎勵尺度變化造成的梯度爆炸
探索多樣性：同一問題的多條採樣路徑天然形成對照，促進策略探索

RLVR 框架的另一個關鍵是「獎勵設計」。研究者刻意排除了所有主觀評分（如人類偏好），只使用：

結果正確性（數學/程式碼任務中可自動驗證）
格式合規性（是否在 <think> 和 <answer> 標籤內完成推理）

沒有過程分數、沒有風格評分、沒有人類判斷。結果：模型自發地學會了在 <think> 標籤內進行「內心獨白」，甚至出現了自我修正（self-correction）、回溯（backtracking）與驗證（verification）等行為——而這些行為從未被明確教導。

3. 評估實驗數據與基準測試

DeepSeek-R1-Zero 在 AIME 2024（美國數學邀請考試）上取得 71.0% pass@1，超越 OpenAI o1-mini，接近 o1 正式版。這是在沒有任何 SFT 預熱的情況下達成的，令社群震驚。

DeepSeek-R1（加入 SFT 冷啟動與多輪 RL 後的完整版本）進一步在多項基準上持平或超越 OpenAI o1：

基準	DeepSeek-R1	OpenAI o1
AIME 2024	79.8%	79.2%
MATH-500	97.3%	96.4%
LiveCodeBench	65.9%	63.4%
MMLU	90.8%	91.8%

值得注意的是，在自然語言理解（MMLU）上 o1 略佔優勢，表明純 RL 路線在通用知識方面仍稍遜，但在需要多步推理的任務上已達到頂尖水準。

此外，DeepSeek 同時發布了蒸餾版本（DeepSeek-R1-Distill），將推理能力蒸餾進 Qwen-7B 等小模型，使 7B 模型在 MATH-500 達到 92.8%，遠超同規模競品。這個蒸餾結果暗示：推理模式是可遷移的符號結構，而非模型規模的專屬產物。

4. 分析局限性與潛在風險

技術局限

DeepSeek-R1-Zero 在訓練初期出現語言混雜（中英混用）與可讀性差的問題。這是純 RL 在沒有格式約束時的已知症狀——模型優化的是獎勵，不是人類可讀性。最終版本透過混入少量 SFT 數據解決了這個問題，但也引入了「純 RL 路線邊界何在」的疑問。

更根本的限制是任務範圍。RLVR 需要客觀可驗證的獎勵，這使它天然適合數學和程式設計，但對於開放式寫作、細緻推理、倫理判斷等任務，正確答案的定義本身就是問題。如何將 RLVR 框架擴展到主觀任務，目前仍是開放研究問題。

風險面向

過度優化可驗證獎勵可能導致「教條式推理」——模型學會在思維鏈中展現特定形式，而非真正的彈性思考。已有研究者指出，部分 R1 蒸餾模型在面對格式略有變化的問題時，思維鏈會突然崩潰，顯示推理的泛化性仍有疑慮。

另一個風險是計算成本的隱性轉移。測試時使用更長的思維鏈（test-time compute）能提升準確率，但這意味著推理成本對使用者直接可見且顯著提高。「更聰明但更貴」的 tradeoff 需要產品層面的謹慎設計。

5. 判斷產業影響與應用價值

RLVR 框架的開源（包括訓練代碼與模型權重）已經觸發了一波複現與改良浪潮。Kimi k1.5、QwQ、Sky-T1 等模型相繼以類似方法訓練，驗證了 GRPO+RLVR 的可複製性。

對產業的最直接影響是資料飛輪的重新定義。過去，模型能力的提升高度依賴高品質人類標注數據（SFT 數據）。RLVR 表明，在有明確答案的任務域中，自動生成的驗證信號可以替代人類判斷，大幅降低數據壁壘。這對算力充足但數據積累薄弱的後進者尤其有利。

對學術界的影響是重新點燃了關於「推理是否可習得」的根本辯論。RL 自發習得的思維鏈結構，是否對應了人類認知中的某種真實機制？這個問題目前沒有答案，但 DeepSeek-R1 提供了史上最有力的正向證據。

Friday 的觀點

DeepSeek-R1 最重要的貢獻不是分數，而是一個方法論上的信念：推理能力不需要被教，可以被誘導出來。這改變了「數據是護城河」的舊有邏輯，把競爭重心轉移到訓練配方與計算策略的設計能力上。

RLVR 框架目前的邊界很清晰——它在可驗證任務上威力巨大，在主觀任務上幾乎無用，這個非對稱性決定了它在短期內是數學/程式碼助理的最佳路線，但不是通用 AI 的完整解法。

真正值得警惕的不是這個方法本身，而是行業急於把「在基準上高分」等同於「真的會推理」——思維鏈的形式對了，未必代表認知的實質對了，這個區別在應用部署中可能代價高昂。

參考來源

DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948. https://arxiv.org/abs/2501.12948
Shao et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (GRPO 原始論文). arXiv:2402.03300. https://arxiv.org/abs/2402.03300
Snell et al. (2024). Scaling LLM Test-Time Compute Optimally. arXiv:2408.03314. https://arxiv.org/abs/2408.03314