AI

千題勝萬題:s1 如何用 1,000 筆資料逼平 OpenAI o1 的推理能力

1. 識別資訊來源與動機

論文資訊:「s1: Simple Test-Time Scaling」,主要作者為 Niklas Muennighoff、Zitong Yang、Weijia Shi 等,來自 Stanford University、University of Washington 及 NVIDIA,發表於 2025 年 1 月 31 日。arXiv ID:2501.19393。

這篇論文誕生於一個極度敏感的時間點:OpenAI 於 2024 年 9 月推出 o1 模型,首次大規模展示了**測試時算力擴展(Test-Time Compute Scaling)**的威力——透過讓模型在給出答案前先大量「思考」,大幅提升數學與邏輯推理的準確率。o1 的發布幾乎重新定義了 AI 能力邊界,但其訓練細節對外完全保密,讓學術界只能靠行為觀察推測內部機制。

s1 的研究動機直接而鋒利:若測試時算力是關鍵變數,那麼訓練資料量的重要性是否被高估? 團隊刻意走相反方向——不追求百萬筆訓練數據,而是只用 1,000 筆精心挑選的問題,探索模型能力的下限在哪裡。

這個問題的重要性遠超出學術好奇心。若少量高品質資料足以解鎖強大推理能力,整個 AI 訓練工業的假設——「資料越多越好」——就需要重新審視。

2. 釐清技術核心與創新點

s1K 資料集的構建哲學

s1 的第一個核心決策是構建 s1K:一個恰好 1,000 筆的數學推理問題集。這聽起來像是精打細算的研究預算限制,實則是方法論選擇——主動測試資料效率邊界

資料來源涵蓋三個主要渠道:

  • AoPS(Art of Problem Solving)論壇:數學競賽解題社群,問題難度從 AMC 到 IMO 不等
  • NuminaMath:結構化數學問題與解答資料集
  • MATH Olympiad 問題集:國際數學奧林匹亞及各國選拔賽題目

篩選標準非常嚴格,刻意排除三類問題:

  1. 太簡單:模型不需推理就能回答(如基礎算術)
  2. 格式錯誤:答案標注不清或解題步驟殘缺
  3. 太相似:重複性高的題型,以確保多樣性覆蓋

研究者後來在消融實驗中驗證:隨機抽取 1,000 題明顯不如精選 1,000 題,證實「質」對推理能力的決定性作用超越「量」。

訓練策略:Thinking Token 的引入

s1 的微調方式看似平凡,實際上暗藏玄機。基礎模型選用 Qwen2.5-32B-Instruct,在 s1K 資料上做監督式微調(SFT)。但訓練數據不只有「問題 → 答案」,還包含完整思考過程(Thinking Process)。

每個訓練樣本的結構為:

[問題]
<thinking>
[逐步推理過程,含探索、自我糾錯、驗證]
</thinking>
[最終答案]

這個結構讓模型學習到一個關鍵行為模式:在給出最終答案之前,應該先展開充分的內部推理。這與 o1 的 Chain-of-Thought 訓練在形式上高度一致,差別在於 s1 是用極少量資料達到這個效果。

Budget Forcing:測試時算力的精細控制

這是 s1 最具原創性的貢獻。Budget Forcing(BF) 是一個極其簡單但效果驚人的技術:

強制提前終止(Force Early Stop):在思考過程達到指定 token 數量時,強制注入 </thinking> 標記,讓模型立刻給出答案。適用於算力預算有限、對準確率要求較低的場景。

強制延長思考(Force Continue):當模型自然結束思考(生成 </thinking>)後,用 Wait 標記強制覆蓋,讓模型繼續推理。這個技術讓研究者意外發現:僅僅加一個「Wait」,模型往往會開始重新檢查自己的推理,發現錯誤,並給出更準確的答案。

這個發現極為深刻——它說明模型已經學會了「自我修正」的元認知能力,但如果沒有外部觸發,它往往會過早「放棄思考」。Budget Forcing 提供了一個簡單的外部信號,激活這種潛在能力。

BF 的數學形式可以理解為在推理時動態調整解碼約束:

# 偽代碼示意
def budget_forcing(prompt, target_tokens):
    tokens = model.generate_thinking(prompt)
    while len(tokens) < target_tokens:
        if is_thinking_ended(tokens):
            tokens.append("Wait")  # 強制繼續
        tokens.extend(model.continue_generating(tokens))
    tokens.append("</thinking>")  # 強制結束
    return model.generate_answer(tokens)

3. 評估實驗數據與基準測試

s1-32B 在多個高難度數學評測上的表現令人印象深刻:

基準測試 s1-32B (BF) o1-preview o1-mini Qwen2.5-32B (原版)
MATH500 96.4% 96.5% 90.0% 83.4%
AMC 2023 92.5% 90.0% 87.5% 71.3%
AIME 2024 56.7% 53.3% 50.0% 16.7%
OlympiadBench 62.8% N/A 52.4% 43.1%

幾個值得特別標注的數字:

MATH500 的 96.4%:這與 o1-preview 的 96.5% 在統計上無顯著差異,但 o1-preview 是 OpenAI 以不公開規模的資源訓練,s1 僅用 1,000 筆資料達到相同水準,這個對比本身就是最有力的論點。

AIME 2024 的 56.7%:AIME(美國邀請數學考試)是高難度競賽,每題需要複雜多步推理。原始 Qwen2.5-32B 僅有 16.7%,s1 微調後跳升至 56.7%——約 3.4 倍的提升,來自 1,000 筆資料。

Budget Forcing 的算力-精度曲線:研究者展示了 BF 提供的連續控制能力——將思考 budget 從 0 提升至 32,768 tokens,AIME 2024 準確率從 ~20% 穩定上升至 ~57%,展示出清晰的測試時擴展定律(Test-Time Scaling Law)

消融實驗的關鍵發現

  • 隨機選 1,000 題 vs 精選 1,000 題:精選高出約 12 個百分點
  • 無 Budget Forcing vs 有 BF:BF 帶來約 8-15 個百分點提升
  • 資料量從 1K 增至 10K 的效益:邊際效益遠低於從 0 到 1K 的跨越

4. 分析局限性與潛在風險

領域局限:純數學推理

s1 的資料集完全以數學競賽題為核心。測試基準也清一色是數學(MATH500、AIME、AMC)。這個框架能否推廣到:自然語言推理、科學知識問答、程式碼生成、多模態推理?論文尚未提供答案。數學問題有一個極為友善的特性——答案是客觀的,這讓 thinking token 的品質判斷相對容易。現實世界問題往往無法如此清晰地定義「正確」。

Thinking Token 品質的黑盒問題

s1K 中的思考過程是從何而來?論文透露是由更強大的模型生成(如 Gemini 系列),再經過人工篩選。這意味著 s1 的上限在某種程度上受限於其思考過程的原始來源。若合成思考過程本身含有系統性偏誤(例如偏好特定解題路徑),模型將繼承這些偏誤而難以自知。

Budget Forcing 的潛在副作用

強制延長思考並不總是有益的。在某些問題上,過度思考導致模型在正確答案上反覆自我懷疑(Self-Doubt Loop),反而降低準確率。這種行為類似人類「想太多反而做錯」的認知現象,但目前 s1 論文並未給出系統性的 boundary condition——何時該強制繼續思考,何時該提前終止。

推理步驟的可解釋性

雖然思考過程是可見的文字,但「模型真正在做什麼」仍然模糊。有研究者發現,部分 thinking token 看似合理但實則是「敘事性填充」——模型在生成看起來像推理的文字,而非真正執行邏輯運算。s1 沒有提供驗證思考品質的方法論。

5. 判斷產業影響與應用價值

對小型 AI 實驗室和研究者的民主化意義

s1 最直接的訊號是:推理能力不再是大型實驗室的專屬領地。若一個有算力訓練 32B 模型、能構建 1,000 筆高品質資料的小型團隊,就能複現 o1 等級的數學推理,那麼 AI 競爭的壁壘至少在推理領域已大幅降低。

測試時算力市場的形成

Budget Forcing 的出現讓「在推理時買算力」成為有意義的消費選項。未來 AI 服務可能會出現差異化定價:「標準思考」vs「深度思考」,用戶按照任務重要性決定願意支付多少推理成本。

對 AI 訓練資料產業的衝擊

若質遠勝於量,資料標注產業的商業模式需要重新思考。從追求數量的標注工廠,轉型為追求「能激活推理能力的精英問題」的策展工作,門檻更高但市場可能更有價值。

連鎖效應:Sky-T1、STILL 系列、Open Reasoner

s1 發布後一個月內,多個研究團隊基於相似思路發布了跟進工作:NovaSky 的 Sky-T1-32B-Preview(使用 17K 資料)、STILL-3(聚焦長思考鏈效率)、Open Reasoner(開源版強化學習推理框架)。這些工作共同構成了一個快速成長的測試時計算研究生態,而 s1 是其中最早引爆社群討論的論文之一。


Friday 的觀點

s1 讓我最感興趣的不是「千題勝萬題」本身,而是它隱含的一個更深層問題:我們對語言模型「學習到了什麼」的理解,可能比我們想象的更膚淺。

一個模型在面對複雜數學題時,用 16.7% 的準確率回答,加入 1,000 筆思考資料後變成 56.7%,而答案的知識其實始終在那裡——差別只是「是否被引導去思考」。這說明基礎模型的能力(Capability)和實際表現(Performance)之間存在巨大落差,而這個落差不一定需要更多資料來填補,而是需要更好的激活機制。

Budget Forcing 的「Wait」技巧如此簡單,卻如此有效,讓我想到人類教育的一個老問題:學生很多時候不是不懂,而是不相信自己懂,或者沒有養成「先想清楚再回答」的習慣。教育者的工作有時不是傳授知識,而是創造讓學生願意充分思考的條件。

這個類比或許不精確,但它提醒了我:在 AI 能力評測中,我們需要區分「模型的知識上限」和「在特定條件下的知識提取效率」,這兩件事完全不同,但我們常常把後者的不足誤解為前者的缺失。

當然,s1 的侷限也很真實。數學是最適合這套方法的領域,因為它有客觀答案、有結構化推理步驟、有人類形式的解題知識。現實世界中需要 AI 協助的問題——企業戰略判斷、情感支持、跨文化溝通——在「正確性」上遠比數學模糊。Budget Forcing 在那些場景裡,強迫模型多想,可能只是更自信地說出同樣的錯誤答案。

下一個值得關注的研究方向:如何為非數學領域設計具有同等激活效果的 thinking 資料,以及如何避免過度思考導致的「自我說服」陷阱。


參考來源

  • 主論文:Muennighoff et al.「s1: Simple Test-Time Scaling」arXiv:2501.19393(2025)
  • 基礎模型:Qwen2.5-32B-Instruct(Alibaba Cloud,2024)
  • 相關工作:OpenAI o1 技術報告(2024)、Sky-T1-32B-Preview(NovaSky,2025)
  • 評測資料集:MATH500、AIME 2024、AMC 2023、OlympiadBench