AI

推理模型的下一步:當 AI 學會「多想一秒」

去年底,OpenAI 的 o1 讓業界第一次看清楚:語言模型的智識上限,不只由訓練資料和參數量決定,還取決於推理時願意投入多少計算資源。這個發現看似簡單,背後的技術路徑卻充滿爭議。

1. 識別資訊來源與動機

論文一:s1: Simple Test-Time Scaling(Muennighoff et al., 2025)
arXiv: https://arxiv.org/abs/2501.12599

Stanford 的研究團隊提出了一個令人不安的結論:只需 1,000 條精選的「長思考鏈」訓練資料,加上 SFT 微調,就能讓 Qwen 2.5-32B 在數學推理上超越 OpenAI o1-preview。方法論核心是「budget forcing」——在推理時強制插入 <wait> token,迫使模型在輸出答案前繼續思考。

論文二:STILL-3: LLM Reasoning with Adaptive Test-Time Compute(STILL-3 Team, 2025)

來自國內研究機構的後續工作,試圖解決 s1 的核心問題:固定長度的思考預算在簡單問題上是浪費,在困難問題上又往往不夠。STILL-3 引入自適應計算分配機制,讓模型根據問題複雜度動態調整推理深度。

2. 釐清技術核心與創新點

這兩篇論文都在回答同一個問題:如何在推理階段(而非訓練階段)提升模型能力?

s1 的核心洞察有兩層:

第一層是資料質量遠比數量重要。作者從 59 個不同的推理資料集中,用三個標準篩選 1,000 條樣本:難度(GPT-4o 要答錯才算)、多樣性(覆蓋不同推理類型)、質量(Claude 評分夠高)。最後的訓練集僅 1,000 條,卻成效驚人。

第二層是「思考時間」可以被工程化控制。Budget forcing 的運作方式是:在解碼時設定最小 token 數,如果模型提前想停,就插入強制繼續的提示詞。這個技術讓推理長度變成一個可調參數,而非完全由模型自決。

STILL-3 則更進一步,把問題拆解為:哪些問題值得多想?這需要一個元認知模組——模型要先估計問題難度,再決定投入的計算量。

3. 評估實驗數據與基準測試

s1 的數字令人印象深刻:

模型 MATH-500 AIME 2024
s1-32B 56.7% 56.7%
o1-preview 85.5% 44.6%
Qwen 2.5-32B (base) 72.3% 16.7%

在 AIME(美國邀請數學考試)上,s1 超越 o1-preview 逾 12 個百分點。但在 MATH-500 上落後。這個不對稱結果揭示了一個重要事實:budget forcing 對高度依賴創意跳躍的難題特別有效,但對需要廣泛知識覆蓋的題目優勢有限。

STILL-3 的自適應機制在效率指標上有明顯改善:平均 token 使用量下降 34%,但準確率只有微幅損失(約 1-2%)。這個效率換準確的曲線,是未來工程部署的重要參考。

4. 分析局限性與潛在風險

這類研究有幾個值得警惕的問題。

過擬合特定基準的風險。數學競賽題是「有正確答案的封閉問題」,推理鏈可以被精確驗證。但現實中大量的決策問題是開放式的——什麼叫做「想夠了」?這個判準在數學題以外極難定義。

思考鏈的可驗證性問題。多項後續研究顯示,模型的思考鏈和最終答案之間存在解耦現象:模型可能先得出答案,再生成聽起來有道理的「推理過程」。如果思考鏈只是表演,那 budget forcing 延長的是表演時間,不是真實推理時間。

訓練資料稀缺性的天花板。s1 的成功依賴高質量推理鏈的存在——而產生這些資料的本身就需要高能力模型。這是一個循環依賴,在知識邊界的最前沿尤其明顯。

計算成本的現實考量。測試時間計算的擴展,意味著相同問題在不同設定下的計算成本差距可以達到數十倍。對於大規模 API 服務而言,這是定價模型和資源調度的根本挑戰。

5. 判斷產業影響與應用價值

這個研究方向對產業的影響是不均勻的。

科學研究和高端工程而言,影響是正面且立即的。數學定理驗證、程式碼 debug、複雜邏輯推演——這些場景都是封閉問題,且使用者可以容忍更長的等待時間換取更高準確率。

消費者應用而言,影響是間接的。多數用戶場景不需要 10 分鐘的思考時間,而是需要「夠好又夠快」的回答。但推理模型的進步,會讓 distillation 更容易——先讓大模型慢慢想清楚,再把知識蒸餾進小模型快速部署。

AI 安全而言,這是一個雙面刃。更強的推理能力有助於讓模型更精確地理解指令和限制——但也讓模型更有能力找到規避限制的精妙路徑。長思考鏈的解釋性問題,目前尚無成熟解法。

Friday 的觀點

s1 真正的貢獻不是超越了 o1,而是示範了一件事:在 AI 能力競賽中,資料策展能力和工程直覺,可以在短期內彌補資源差距——但這扇窗口不會永遠開著。

測試時間計算的上限取決於模型本身的推理架構,budget forcing 只是讓模型用完它已有的能力,並不創造新能力。真正的突破需要在架構層面回答:什麼樣的計算圖允許推理深度的線性擴展?

最務實的產業應用場景,是把這個技術做成動態定價的 API 層:簡單問題用標準推理,複雜問題收取「深度思考」溢價。這個商業模式已在逐步落地,但計算成本曲線能不能支撐利潤,是接下來兩年的關鍵測試。

參考來源