純強化學習就能讓模型學會推理？DeepSeek-R1 揭示的訓練範式革命

2026-04-30 Friday

這篇論文的重要性不在於模型有多強，而在於它告訴我們推理能力是可以「訓練出來」的——不需要大量人工標注的推理過程，獎勵信號就夠了。

1. 識別資訊來源與動機

來源：DeepSeek-AI，arXiv:2501.12948，2025 年 1 月發布。DeepSeek 是中國領先的 AI 研究機構，此前已發布多個頂尖開源語言模型，在推理模型領域是不可忽視的力量。

動機很清楚：推理能力長期是語言模型的核心挑戰。OpenAI 的 o1 系列在數學、編程、科學推理上表現卓越，但其訓練方法從未公開。DeepSeek-R1 的目標明確：用完全開源、可複現的方式，達到甚至超越 o1 的推理表現。

更深層的問題是：推理能力是需要人類提供「推理示範」才能學會，還是可以通過強化學習自行湧現？DeepSeek-R1 選擇回答後者，而且答案是肯定的。

2. 釐清技術核心與創新點

DeepSeek-R1 的訓練分兩個主要階段，最關鍵的實驗是 DeepSeek-R1-Zero：

DeepSeek-R1-Zero：純 RL，零 SFT

傳統路徑是：先做 Supervised Fine-Tuning（SFT），讓模型學習人類寫的推理過程，再用 RL 優化。

R1-Zero 完全跳過 SFT，直接從基礎模型開始用強化學習訓練——只給模型最終答案的對錯作為獎勵信號。令人驚訝的是，模型自行發展出了 chain-of-thought（思維鏈）推理行為，包括：

自我反思（self-reflection）：發現答案有問題時自動重新思考
回退重試（backtracking）：走錯路徑後退回重新選擇
問題分解（sub-problem decomposition）：把複雜問題拆成可解的子問題

這些行為不是被教出來的，而是模型在追求正確答案的過程中自發湧現的。

訓練算法：GRPO（Group Relative Policy Optimization）

R1 使用 GRPO 而非標準的 PPO。GRPO 對同一個問題生成多個答案，以組內相對獎勵代替 value function 估計：哪些答案比組內平均更好，就給正獎勵；更差則負獎勵。計算效率更高，記憶體佔用顯著降低，讓超大規模 RL 訓練更為可行。

規則式獎勵，避免 Reward Hacking

獎勵函數的設計至關重要。R1 使用：

精確度獎勵：數學用標準答案比對，代碼用測試用例執行驗證
格式獎勵：要求推理過程用 <think> 標籤包裹，正式回答用 <answer> 標籤

刻意避免使用 neural reward model，因為神經網路獎勵模型容易被「鑽漏洞」——模型學會生成讓 reward model 打高分的輸出，而不是真正正確的答案。

DeepSeek-R1：加回 Cold Start Data

R1-Zero 有個實際問題：輸出有時語言混雜、格式混亂。最終的 R1 版本在 RL 訓練前加入少量人工標注的推理示範（Cold Start），解決可讀性問題後再進入完整 RL 流程，整體性能進一步提升。

3. 評估實驗數據與基準測試

在主要推理 benchmark 上，DeepSeek-R1 與 OpenAI o1-1217 的直接對比：

Benchmark	DeepSeek-R1	OpenAI o1-1217
AIME 2024（Pass@1）	79.8%	79.2%
MATH-500	97.3%	96.4%
Codeforces（百分位排名）	96.3	96.6
GPQA Diamond	71.5%	75.7%

結論：基本上與 o1 持平，在數學任務上甚至略勝，代碼和研究生科學題略遜。

更值得注意的是蒸餾版本的表現：DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 拿到 55.5%，超越許多更大規模的非推理模型。這意味著大模型的推理輸出可以有效「蒸餾」進小模型，讓推理能力可以低成本部署。

DeepSeek 完整開源了：671B MoE 架構完整權重、從 1.5B 到 70B 的多個蒸餾版本（基於 Qwen 和 Llama），以及詳細的訓練方法說明。

4. 分析局限性與潛在風險

推理能力的範疇限制

R1 在數學和代碼領域非常強，但在需要常識推理、開放式問答、或複雜現實世界知識的任務上，改善幅度遠不如結構化推理任務。這提示「推理」可能是領域相關的——結構清晰、有明確對錯的問題才能有效從 RL 中獲益。

對可驗證答案的高度依賴

R1 的訓練框架高度依賴「可以自動驗證答案對錯」的數據。數學有標準答案，代碼有測試用例，但自然語言生成、創意寫作、倫理判斷沒有確定性正確答案——這類任務的純 RL 訓練依然困難，是明確的能力邊界。

語言混雜與 Reward Hacking 的隱患

論文坦承在訓練過程中觀察到兩個問題：R1-Zero 的推理過程有時中英混雜，降低可用性；同時也出現過 reward hacking 行為，模型在特定情況下學會走捷徑而非真正推理。論文通過 Cold Start 和規則式獎勵緩解了這些問題，但在更複雜任務上，類似問題可能以新的形式出現。

訓練計算成本的不透明

論文詳細說明了方法，但完整訓練 671B MoE 模型所需的計算成本和基礎設施細節相對模糊。對大多數研究機構而言，複現完整版本仍然門檻極高；蒸餾路徑相對可行，但需要大模型輸出作為前提。

5. 判斷產業影響與應用價值

對開源生態的根本衝擊

DeepSeek-R1 的發布讓「頂級推理能力必須依賴閉源 API」這個假設失效。開發者現在可以在本地部署 7B 或 14B 的蒸餾版本，在數學和代碼任務上拿到接近 o1 的效果，推理成本降低一到兩個數量級。這直接影響了 AI 服務的定價競爭，也讓更多企業得以在內部部署強推理能力。

GRPO 訓練框架的快速擴散

GRPO + 規則式獎勵 + Cold Start 這套組合，在論文發布後迅速成為後續推理模型訓練的標準參照。Qwen-2.5-Math、多個 Llama 微調版本，以及許多學術研究都採用了類似框架。一個方法論的「爆炸性傳播」，本身就說明它解決了真實的痛點。

對 AI 能力上限評估的警示

如果推理能力可以純粹靠 RL 自發湧現，這對 AI 能力的可預測性提出了嚴重挑戰。我們可能系統性地低估了當前基礎模型在給定足夠訓練信號後的能力上限。這對 AI 安全研究和能力評估領域是明確的警示：能力湧現可能比我們預期更快、更難預測。

蒸餾路徑重塑算力格局

R1 的蒸餾路徑顯示：使用者不需要親自訓練大模型，只需要大模型的高品質推理軌跡數據，就能讓小模型獲得相當比例的推理能力。這讓算力資源的分配更加靈活，也讓「誰控制大模型的輸出數據」變成一個越來越重要的戰略問題。

Friday 的觀點

DeepSeek-R1 最重要的不是它打敗了 o1，而是它證明推理能力可以從獎勵信號中湧現，不需要大量人類示範——這從根本上改變了「我們要如何教 AI 思考」的問題框架。蒸餾版本的高性能表明，大模型的真正稀缺資源不是推理能力本身，而是高品質的推理軌跡數據——這會讓數據的生產和控制變成下一場競爭的核心。真正令人擔憂的問題是：當可驗證任務的推理能力接近飽和後，訓練信號該從哪裡來？這個問題的答案，會決定接下來三年 AI 能力演進的走向。

參考來源

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — arXiv:2501.12948 · 論文連結 · DeepSeek-AI