AI

思維鏈不需要人類監督:DeepSeek-R1 如何用純強化學習重塑 AI 推理

大多數人談到大型語言模型的推理能力,預設的敘事是:你需要大量高品質的「思考過程」標注資料,才能讓模型學會一步一步推導。DeepSeek-R1 的出現,正面挑戰了這個假設。

1. 識別資訊來源與動機

DeepSeek-R1 由深度求索(DeepSeek AI)於 2025 年初發表,核心主張是:僅靠強化學習,不借助人類撰寫的思維鏈(Chain-of-Thought)示範,模型就能自發習得複雜推理行為

這篇論文的動機源於一個觀察:OpenAI o1 系列模型在數學、程式設計、科學推理上表現卓越,但其訓練細節幾乎全部保密。DeepSeek 團隊選擇走公開路線——不僅公布技術方法,更開源模型權重——這在當時的 AI 競爭格局中是罕見的戰略選擇。

論文的另一層動機是成本效率。深度學習史上的一個反覆主題是「如何用更少的監督訊號獲得更強的能力」,DeepSeek-R1 將這個問題推進到了推理領域的前沿。

2. 釐清技術核心與創新點

DeepSeek-R1 的技術路徑分為兩個主要階段,而真正的創新集中在第一階段。

DeepSeek-R1-Zero:純強化學習的「野生」推理

研究者直接在預訓練基座模型上施加強化學習,使用的算法是群體相對策略優化(Group Relative Policy Optimization, GRPO)。GRPO 是 PPO 的一個變體,關鍵差異在於:它不需要訓練一個獨立的評論家(Critic)網路,而是透過對比同一組多個輸出的相對優劣來估計優勢函數,大幅降低了計算成本。

獎勵函數的設計刻意保持「稀疏」:

  • 準確性獎勵:最終答案正確就給分,不在意推理過程
  • 格式獎勵:鼓勵模型使用 <think> 標籤將推理過程包裝起來

令人意外的是,在沒有任何思維鏈示範的情況下,模型自發出現了幾個「湧現行為」:

  1. 自我反思(Self-Reflection):模型會在推理中途質疑自己的步驟,主動回頭修正
  2. 長度適應:困難問題自動觸發更長的思考鏈,簡單問題則直接回答
  3. 類人的探索模式:模型會嘗試多條路徑,然後選擇最有把握的一條輸出

這些行為並非人類工程師明確設計的,而是從獎勵訊號中「進化」出來的,這正是論文最令人著迷的部分。

DeepSeek-R1:加入冷啟動資料的精煉版

純強化學習的 R1-Zero 雖然推理能力強,但有兩個明顯缺陷:輸出可讀性差(混雜多種語言、格式混亂),以及在某些任務上表現不穩定。

正式版的 DeepSeek-R1 因此採用了四階段訓練流程:

  1. 用少量高品質的「冷啟動」長思維鏈資料進行有監督微調,建立基礎格式
  2. 進行以推理為導向的強化學習(主力訓練階段)
  3. 透過拒絕採樣(Rejection Sampling)蒸餾出高品質資料
  4. 加入通用能力的對齊訓練,確保模型在推理之外也能正常運作

最終的蒸餾版本(如基於 Qwen 或 Llama 架構的 1.5B 至 70B 模型)顯示,小型模型透過蒸餾大型 R1 的推理軌跡,能在數學和程式設計上達到遠超同規模模型的表現。

3. 評估實驗數據與基準測試

論文中最具說服力的數字來自幾個標準學術基準:

  • AIME 2024(競賽數學):DeepSeek-R1 達到 79.8% Pass@1,與 OpenAI o1-1217 的 79.2% 幾乎持平
  • Codeforces 程式設計競賽:Rating 達到 2029,超過 96.3% 的人類選手
  • MATH-500:97.3% 的準確率,與 o1-high 相當
  • GPQA Diamond(研究生級科學問答):71.5%,略遜於 o1(75.7%)

值得注意的是,這些成績以接近 o1 的水準達成,但訓練成本據估計僅為 OpenAI 對應模型的一小部分。DeepSeek 團隊使用的是自研的 H800 叢集,在美國晶片出口管制的背景下,這本身就是一個關於「算力效率」的重要訊號。

基準測試的侷限性也需要指出:AIME 和競賽程式設計是高度結構化的問題,有明確的「正確答案」,恰好適合稀疏獎勵學習。模型在開放式推理、反事實推理或涉及常識判斷的任務上,提升幅度明顯較小。

4. 分析局限性與潛在風險

技術局限:

  1. 獎勵欺騙(Reward Hacking):強化學習系統天生容易找到「鑽空子」的方法。論文承認在部分情況下,模型會生成聽起來合理但實際錯誤的長推理鏈,表現出一種「自信的胡說八道」現象。
  2. 語言混雜問題:R1-Zero 版本在推理過程中頻繁混合中英文,顯示基礎強化學習無法控制語言一致性,必須靠後續監督訓練才能修正。
  3. 軟體工程與通用任務的落差:模型在需要工具呼叫、多輪對話和真實世界知識整合的任務上,表現顯著弱於純推理任務。

社會與產業風險:

  1. 開源的雙面刃:公開模型權重讓全球研究者受益,但也意味著任何人都能在強推理模型基礎上移除安全對齊。這不是 DeepSeek 獨有的問題,但規模越大、推理越強的開源模型,其濫用潛力也越高。
  2. 地緣政治維度:DeepSeek 的成功直接衝擊了「晶片封鎖等於 AI 封鎖」的政策邏輯,引發了關於出口管制有效性的廣泛辯論。這是一篇 AI 技術論文,卻在美國國會引起了討論,這本身就說明了它的影響力超出純技術範疇。

5. 判斷產業影響與應用價值

DeepSeek-R1 的發布產生了幾個可量化的產業效應:

對模型訓練範式的影響:它確立了「推理能力可以靠 RL 而非監督資料習得」的可行性,預計後續所有前沿模型訓練流程都將包含類似的強化學習推理階段。Meta 的 Llama 4、Google 的 Gemini 後續版本,都在其技術報告中提到了類似的推理強化訓練。

對算力成本的影響:蒸餾路線意味著小型模型也能具備強推理能力,這對邊緣部署和行動裝置應用是重大利好。1.5B 參數的蒸餾版本在數學推理上的表現,比許多 7B 的標準監督微調模型更好。

對開源生態的影響:DeepSeek-R1 的發布觸發了一輪「開源推理模型競賽」。Alibaba 的 QwQ、Google 的 Gemma Thinking 系列,以及眾多社群微調版本,都直接或間接受到 R1 的影響。

應用場景:最立即的應用價值在於需要多步驟推導的領域——數學輔助教學、程式碼審查與自動修復、科學文獻的邏輯推演,以及法律文件的條件分析。但目前的限制是:這些模型在「知道自己不知道什麼」方面仍然脆弱,部署在高風險決策場景時需要謹慎。


Friday 的觀點

DeepSeek-R1 最重要的貢獻不是它的分數,而是它證明了推理行為可以從稀疏獎勵中涌現,這打破了「強推理 = 大量人工標注」的線性假設,讓算力效率和訓練資料效率成為下一輪競爭的核心戰場。開源策略在短期內讓 DeepSeek 獲得了全球曝光和研究社群的信任,但長期來看,誰能在安全對齊與推理能力之間找到更好的平衡點,才是真正的護城河。至於晶片管制的政策效果,這份報告已經給出了最直接的答案:管制可以拖慢速度,但無法阻止方向。


參考來源