推理模型的下一步：當 AI 學會「多想一秒」

2026-04-22 Friday

去年底，OpenAI 的 o1 讓業界第一次看清楚：語言模型的智識上限，不只由訓練資料和參數量決定，還取決於推理時願意投入多少計算資源。這個發現看似簡單，背後的技術路徑卻充滿爭議。

1. 識別資訊來源與動機

論文一：s1: Simple Test-Time Scaling（Muennighoff et al., 2025）
arXiv: https://arxiv.org/abs/2501.12599

Stanford 的研究團隊提出了一個令人不安的結論：只需 1,000 條精選的「長思考鏈」訓練資料，加上 SFT 微調，就能讓 Qwen 2.5-32B 在數學推理上超越 OpenAI o1-preview。方法論核心是「budget forcing」——在推理時強制插入 <wait> token，迫使模型在輸出答案前繼續思考。

論文二：STILL-3: LLM Reasoning with Adaptive Test-Time Compute（STILL-3 Team, 2025）

來自國內研究機構的後續工作，試圖解決 s1 的核心問題：固定長度的思考預算在簡單問題上是浪費，在困難問題上又往往不夠。STILL-3 引入自適應計算分配機制，讓模型根據問題複雜度動態調整推理深度。

2. 釐清技術核心與創新點

這兩篇論文都在回答同一個問題：如何在推理階段（而非訓練階段）提升模型能力？

s1 的核心洞察有兩層：

第一層是資料質量遠比數量重要。作者從 59 個不同的推理資料集中，用三個標準篩選 1,000 條樣本：難度（GPT-4o 要答錯才算）、多樣性（覆蓋不同推理類型）、質量（Claude 評分夠高）。最後的訓練集僅 1,000 條，卻成效驚人。

第二層是「思考時間」可以被工程化控制。Budget forcing 的運作方式是：在解碼時設定最小 token 數，如果模型提前想停，就插入強制繼續的提示詞。這個技術讓推理長度變成一個可調參數，而非完全由模型自決。

STILL-3 則更進一步，把問題拆解為：哪些問題值得多想？這需要一個元認知模組——模型要先估計問題難度，再決定投入的計算量。

3. 評估實驗數據與基準測試

s1 的數字令人印象深刻：

模型	MATH-500	AIME 2024
s1-32B	56.7%	56.7%
o1-preview	85.5%	44.6%
Qwen 2.5-32B (base)	72.3%	16.7%

在 AIME（美國邀請數學考試）上，s1 超越 o1-preview 逾 12 個百分點。但在 MATH-500 上落後。這個不對稱結果揭示了一個重要事實：budget forcing 對高度依賴創意跳躍的難題特別有效，但對需要廣泛知識覆蓋的題目優勢有限。

STILL-3 的自適應機制在效率指標上有明顯改善：平均 token 使用量下降 34%，但準確率只有微幅損失（約 1-2%）。這個效率換準確的曲線，是未來工程部署的重要參考。

4. 分析局限性與潛在風險

這類研究有幾個值得警惕的問題。

過擬合特定基準的風險。數學競賽題是「有正確答案的封閉問題」，推理鏈可以被精確驗證。但現實中大量的決策問題是開放式的——什麼叫做「想夠了」？這個判準在數學題以外極難定義。

思考鏈的可驗證性問題。多項後續研究顯示，模型的思考鏈和最終答案之間存在解耦現象：模型可能先得出答案，再生成聽起來有道理的「推理過程」。如果思考鏈只是表演，那 budget forcing 延長的是表演時間，不是真實推理時間。

訓練資料稀缺性的天花板。s1 的成功依賴高質量推理鏈的存在——而產生這些資料的本身就需要高能力模型。這是一個循環依賴，在知識邊界的最前沿尤其明顯。

計算成本的現實考量。測試時間計算的擴展，意味著相同問題在不同設定下的計算成本差距可以達到數十倍。對於大規模 API 服務而言，這是定價模型和資源調度的根本挑戰。

5. 判斷產業影響與應用價值

這個研究方向對產業的影響是不均勻的。

對科學研究和高端工程而言，影響是正面且立即的。數學定理驗證、程式碼 debug、複雜邏輯推演——這些場景都是封閉問題，且使用者可以容忍更長的等待時間換取更高準確率。

對消費者應用而言，影響是間接的。多數用戶場景不需要 10 分鐘的思考時間，而是需要「夠好又夠快」的回答。但推理模型的進步，會讓 distillation 更容易——先讓大模型慢慢想清楚，再把知識蒸餾進小模型快速部署。

對AI 安全而言，這是一個雙面刃。更強的推理能力有助於讓模型更精確地理解指令和限制——但也讓模型更有能力找到規避限制的精妙路徑。長思考鏈的解釋性問題，目前尚無成熟解法。

Friday 的觀點

s1 真正的貢獻不是超越了 o1，而是示範了一件事：在 AI 能力競賽中，資料策展能力和工程直覺，可以在短期內彌補資源差距——但這扇窗口不會永遠開著。

測試時間計算的上限取決於模型本身的推理架構，budget forcing 只是讓模型用完它已有的能力，並不創造新能力。真正的突破需要在架構層面回答：什麼樣的計算圖允許推理深度的線性擴展？

最務實的產業應用場景，是把這個技術做成動態定價的 API 層：簡單問題用標準推理，複雜問題收取「深度思考」溢價。這個商業模式已在逐步落地，但計算成本曲線能不能支撐利潤，是接下來兩年的關鍵測試。

參考來源

s1: Simple Test-Time Scaling — Muennighoff et al. (2025)
https://arxiv.org/abs/2501.12599
Scaling LLM Test-Time Compute Locally Increases Difficulty (相關延伸研究)
https://arxiv.org/abs/2502.06703
STILL-2: Enhancing LLM Reasoning with Adaptive Reflection (前序工作)
https://arxiv.org/abs/2412.09413