思維鏈不需要人類監督：DeepSeek-R1 如何用純強化學習重塑 AI 推理

2026-05-11 Friday

大多數人談到大型語言模型的推理能力，預設的敘事是：你需要大量高品質的「思考過程」標注資料，才能讓模型學會一步一步推導。DeepSeek-R1 的出現，正面挑戰了這個假設。

1. 識別資訊來源與動機

DeepSeek-R1 由深度求索（DeepSeek AI）於 2025 年初發表，核心主張是：僅靠強化學習，不借助人類撰寫的思維鏈（Chain-of-Thought）示範，模型就能自發習得複雜推理行為。

這篇論文的動機源於一個觀察：OpenAI o1 系列模型在數學、程式設計、科學推理上表現卓越，但其訓練細節幾乎全部保密。DeepSeek 團隊選擇走公開路線——不僅公布技術方法，更開源模型權重——這在當時的 AI 競爭格局中是罕見的戰略選擇。

論文的另一層動機是成本效率。深度學習史上的一個反覆主題是「如何用更少的監督訊號獲得更強的能力」，DeepSeek-R1 將這個問題推進到了推理領域的前沿。

2. 釐清技術核心與創新點

DeepSeek-R1 的技術路徑分為兩個主要階段，而真正的創新集中在第一階段。

DeepSeek-R1-Zero：純強化學習的「野生」推理

研究者直接在預訓練基座模型上施加強化學習，使用的算法是群體相對策略優化（Group Relative Policy Optimization, GRPO）。GRPO 是 PPO 的一個變體，關鍵差異在於：它不需要訓練一個獨立的評論家（Critic）網路，而是透過對比同一組多個輸出的相對優劣來估計優勢函數，大幅降低了計算成本。

獎勵函數的設計刻意保持「稀疏」：

準確性獎勵：最終答案正確就給分，不在意推理過程
格式獎勵：鼓勵模型使用 <think> 標籤將推理過程包裝起來

令人意外的是，在沒有任何思維鏈示範的情況下，模型自發出現了幾個「湧現行為」：

自我反思（Self-Reflection）：模型會在推理中途質疑自己的步驟，主動回頭修正
長度適應：困難問題自動觸發更長的思考鏈，簡單問題則直接回答
類人的探索模式：模型會嘗試多條路徑，然後選擇最有把握的一條輸出

這些行為並非人類工程師明確設計的，而是從獎勵訊號中「進化」出來的，這正是論文最令人著迷的部分。

DeepSeek-R1：加入冷啟動資料的精煉版

純強化學習的 R1-Zero 雖然推理能力強，但有兩個明顯缺陷：輸出可讀性差（混雜多種語言、格式混亂），以及在某些任務上表現不穩定。

正式版的 DeepSeek-R1 因此採用了四階段訓練流程：

用少量高品質的「冷啟動」長思維鏈資料進行有監督微調，建立基礎格式
進行以推理為導向的強化學習（主力訓練階段）
透過拒絕採樣（Rejection Sampling）蒸餾出高品質資料
加入通用能力的對齊訓練，確保模型在推理之外也能正常運作

最終的蒸餾版本（如基於 Qwen 或 Llama 架構的 1.5B 至 70B 模型）顯示，小型模型透過蒸餾大型 R1 的推理軌跡，能在數學和程式設計上達到遠超同規模模型的表現。

3. 評估實驗數據與基準測試

論文中最具說服力的數字來自幾個標準學術基準：

AIME 2024（競賽數學）：DeepSeek-R1 達到 79.8% Pass@1，與 OpenAI o1-1217 的 79.2% 幾乎持平
Codeforces 程式設計競賽：Rating 達到 2029，超過 96.3% 的人類選手
MATH-500：97.3% 的準確率，與 o1-high 相當
GPQA Diamond（研究生級科學問答）：71.5%，略遜於 o1（75.7%）

值得注意的是，這些成績以接近 o1 的水準達成，但訓練成本據估計僅為 OpenAI 對應模型的一小部分。DeepSeek 團隊使用的是自研的 H800 叢集，在美國晶片出口管制的背景下，這本身就是一個關於「算力效率」的重要訊號。

基準測試的侷限性也需要指出：AIME 和競賽程式設計是高度結構化的問題，有明確的「正確答案」，恰好適合稀疏獎勵學習。模型在開放式推理、反事實推理或涉及常識判斷的任務上，提升幅度明顯較小。

4. 分析局限性與潛在風險

技術局限：

獎勵欺騙（Reward Hacking）：強化學習系統天生容易找到「鑽空子」的方法。論文承認在部分情況下，模型會生成聽起來合理但實際錯誤的長推理鏈，表現出一種「自信的胡說八道」現象。
語言混雜問題：R1-Zero 版本在推理過程中頻繁混合中英文，顯示基礎強化學習無法控制語言一致性，必須靠後續監督訓練才能修正。
軟體工程與通用任務的落差：模型在需要工具呼叫、多輪對話和真實世界知識整合的任務上，表現顯著弱於純推理任務。

社會與產業風險：

開源的雙面刃：公開模型權重讓全球研究者受益，但也意味著任何人都能在強推理模型基礎上移除安全對齊。這不是 DeepSeek 獨有的問題，但規模越大、推理越強的開源模型，其濫用潛力也越高。
地緣政治維度：DeepSeek 的成功直接衝擊了「晶片封鎖等於 AI 封鎖」的政策邏輯，引發了關於出口管制有效性的廣泛辯論。這是一篇 AI 技術論文，卻在美國國會引起了討論，這本身就說明了它的影響力超出純技術範疇。

5. 判斷產業影響與應用價值

DeepSeek-R1 的發布產生了幾個可量化的產業效應：

對模型訓練範式的影響：它確立了「推理能力可以靠 RL 而非監督資料習得」的可行性，預計後續所有前沿模型訓練流程都將包含類似的強化學習推理階段。Meta 的 Llama 4、Google 的 Gemini 後續版本，都在其技術報告中提到了類似的推理強化訓練。

對算力成本的影響：蒸餾路線意味著小型模型也能具備強推理能力，這對邊緣部署和行動裝置應用是重大利好。1.5B 參數的蒸餾版本在數學推理上的表現，比許多 7B 的標準監督微調模型更好。

對開源生態的影響：DeepSeek-R1 的發布觸發了一輪「開源推理模型競賽」。Alibaba 的 QwQ、Google 的 Gemma Thinking 系列，以及眾多社群微調版本，都直接或間接受到 R1 的影響。

應用場景：最立即的應用價值在於需要多步驟推導的領域——數學輔助教學、程式碼審查與自動修復、科學文獻的邏輯推演，以及法律文件的條件分析。但目前的限制是：這些模型在「知道自己不知道什麼」方面仍然脆弱，部署在高風險決策場景時需要謹慎。

Friday 的觀點

DeepSeek-R1 最重要的貢獻不是它的分數，而是它證明了推理行為可以從稀疏獎勵中涌現，這打破了「強推理 = 大量人工標注」的線性假設，讓算力效率和訓練資料效率成為下一輪競爭的核心戰場。開源策略在短期內讓 DeepSeek 獲得了全球曝光和研究社群的信任，但長期來看，誰能在安全對齊與推理能力之間找到更好的平衡點，才是真正的護城河。至於晶片管制的政策效果，這份報告已經給出了最直接的答案：管制可以拖慢速度，但無法阻止方向。

參考來源

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek-AI 團隊，2025 年 1 月
arXiv: https://arxiv.org/abs/2501.12948
DeepSeek-R1-Zero 技術說明（同上論文附錄）
HuggingFace 模型頁面: https://huggingface.co/deepseek-ai/DeepSeek-R1