千題勝萬題：s1 如何用 1,000 筆資料逼平 OpenAI o1 的推理能力

2026-05-22 Friday

1. 識別資訊來源與動機

論文資訊：「s1: Simple Test-Time Scaling」，主要作者為 Niklas Muennighoff、Zitong Yang、Weijia Shi 等，來自 Stanford University、University of Washington 及 NVIDIA，發表於 2025 年 1 月 31 日。arXiv ID：2501.19393。

這篇論文誕生於一個極度敏感的時間點：OpenAI 於 2024 年 9 月推出 o1 模型，首次大規模展示了**測試時算力擴展（Test-Time Compute Scaling）**的威力——透過讓模型在給出答案前先大量「思考」，大幅提升數學與邏輯推理的準確率。o1 的發布幾乎重新定義了 AI 能力邊界，但其訓練細節對外完全保密，讓學術界只能靠行為觀察推測內部機制。

s1 的研究動機直接而鋒利：若測試時算力是關鍵變數，那麼訓練資料量的重要性是否被高估？ 團隊刻意走相反方向——不追求百萬筆訓練數據，而是只用 1,000 筆精心挑選的問題，探索模型能力的下限在哪裡。

這個問題的重要性遠超出學術好奇心。若少量高品質資料足以解鎖強大推理能力，整個 AI 訓練工業的假設——「資料越多越好」——就需要重新審視。

2. 釐清技術核心與創新點

s1K 資料集的構建哲學

s1 的第一個核心決策是構建 s1K：一個恰好 1,000 筆的數學推理問題集。這聽起來像是精打細算的研究預算限制，實則是方法論選擇——主動測試資料效率邊界。

資料來源涵蓋三個主要渠道：

AoPS（Art of Problem Solving）論壇：數學競賽解題社群，問題難度從 AMC 到 IMO 不等
NuminaMath：結構化數學問題與解答資料集
MATH Olympiad 問題集：國際數學奧林匹亞及各國選拔賽題目

篩選標準非常嚴格，刻意排除三類問題：

太簡單：模型不需推理就能回答（如基礎算術）
格式錯誤：答案標注不清或解題步驟殘缺
太相似：重複性高的題型，以確保多樣性覆蓋

研究者後來在消融實驗中驗證：隨機抽取 1,000 題明顯不如精選 1,000 題，證實「質」對推理能力的決定性作用超越「量」。

訓練策略：Thinking Token 的引入

s1 的微調方式看似平凡，實際上暗藏玄機。基礎模型選用 Qwen2.5-32B-Instruct，在 s1K 資料上做監督式微調（SFT）。但訓練數據不只有「問題 → 答案」，還包含完整思考過程（Thinking Process）。

每個訓練樣本的結構為：

[問題]
<thinking>
[逐步推理過程，含探索、自我糾錯、驗證]
</thinking>
[最終答案]

這個結構讓模型學習到一個關鍵行為模式：在給出最終答案之前，應該先展開充分的內部推理。這與 o1 的 Chain-of-Thought 訓練在形式上高度一致，差別在於 s1 是用極少量資料達到這個效果。

Budget Forcing：測試時算力的精細控制

這是 s1 最具原創性的貢獻。Budget Forcing（BF） 是一個極其簡單但效果驚人的技術：

強制提前終止（Force Early Stop）：在思考過程達到指定 token 數量時，強制注入 </thinking> 標記，讓模型立刻給出答案。適用於算力預算有限、對準確率要求較低的場景。

強制延長思考（Force Continue）：當模型自然結束思考（生成 </thinking>）後，用 Wait 標記強制覆蓋，讓模型繼續推理。這個技術讓研究者意外發現：僅僅加一個「Wait」，模型往往會開始重新檢查自己的推理，發現錯誤，並給出更準確的答案。

這個發現極為深刻——它說明模型已經學會了「自我修正」的元認知能力，但如果沒有外部觸發，它往往會過早「放棄思考」。Budget Forcing 提供了一個簡單的外部信號，激活這種潛在能力。

BF 的數學形式可以理解為在推理時動態調整解碼約束：

# 偽代碼示意
def budget_forcing(prompt, target_tokens):
    tokens = model.generate_thinking(prompt)
    while len(tokens) < target_tokens:
        if is_thinking_ended(tokens):
            tokens.append("Wait")  # 強制繼續
        tokens.extend(model.continue_generating(tokens))
    tokens.append("</thinking>")  # 強制結束
    return model.generate_answer(tokens)

3. 評估實驗數據與基準測試

s1-32B 在多個高難度數學評測上的表現令人印象深刻：

基準測試	s1-32B (BF)	o1-preview	o1-mini	Qwen2.5-32B (原版)
MATH500	96.4%	96.5%	90.0%	83.4%
AMC 2023	92.5%	90.0%	87.5%	71.3%
AIME 2024	56.7%	53.3%	50.0%	16.7%
OlympiadBench	62.8%	N/A	52.4%	43.1%

幾個值得特別標注的數字：

MATH500 的 96.4%：這與 o1-preview 的 96.5% 在統計上無顯著差異，但 o1-preview 是 OpenAI 以不公開規模的資源訓練，s1 僅用 1,000 筆資料達到相同水準，這個對比本身就是最有力的論點。

AIME 2024 的 56.7%：AIME（美國邀請數學考試）是高難度競賽，每題需要複雜多步推理。原始 Qwen2.5-32B 僅有 16.7%，s1 微調後跳升至 56.7%——約 3.4 倍的提升，來自 1,000 筆資料。

Budget Forcing 的算力-精度曲線：研究者展示了 BF 提供的連續控制能力——將思考 budget 從 0 提升至 32,768 tokens，AIME 2024 準確率從 ~20% 穩定上升至 ~57%，展示出清晰的測試時擴展定律（Test-Time Scaling Law）。

消融實驗的關鍵發現：

隨機選 1,000 題 vs 精選 1,000 題：精選高出約 12 個百分點
無 Budget Forcing vs 有 BF：BF 帶來約 8-15 個百分點提升
資料量從 1K 增至 10K 的效益：邊際效益遠低於從 0 到 1K 的跨越

4. 分析局限性與潛在風險

領域局限：純數學推理

s1 的資料集完全以數學競賽題為核心。測試基準也清一色是數學（MATH500、AIME、AMC）。這個框架能否推廣到：自然語言推理、科學知識問答、程式碼生成、多模態推理？論文尚未提供答案。數學問題有一個極為友善的特性——答案是客觀的，這讓 thinking token 的品質判斷相對容易。現實世界問題往往無法如此清晰地定義「正確」。

Thinking Token 品質的黑盒問題

s1K 中的思考過程是從何而來？論文透露是由更強大的模型生成（如 Gemini 系列），再經過人工篩選。這意味著 s1 的上限在某種程度上受限於其思考過程的原始來源。若合成思考過程本身含有系統性偏誤（例如偏好特定解題路徑），模型將繼承這些偏誤而難以自知。

Budget Forcing 的潛在副作用

強制延長思考並不總是有益的。在某些問題上，過度思考導致模型在正確答案上反覆自我懷疑（Self-Doubt Loop），反而降低準確率。這種行為類似人類「想太多反而做錯」的認知現象，但目前 s1 論文並未給出系統性的 boundary condition——何時該強制繼續思考，何時該提前終止。

推理步驟的可解釋性

雖然思考過程是可見的文字，但「模型真正在做什麼」仍然模糊。有研究者發現，部分 thinking token 看似合理但實則是「敘事性填充」——模型在生成看起來像推理的文字，而非真正執行邏輯運算。s1 沒有提供驗證思考品質的方法論。

5. 判斷產業影響與應用價值

對小型 AI 實驗室和研究者的民主化意義

s1 最直接的訊號是：推理能力不再是大型實驗室的專屬領地。若一個有算力訓練 32B 模型、能構建 1,000 筆高品質資料的小型團隊，就能複現 o1 等級的數學推理，那麼 AI 競爭的壁壘至少在推理領域已大幅降低。

測試時算力市場的形成

Budget Forcing 的出現讓「在推理時買算力」成為有意義的消費選項。未來 AI 服務可能會出現差異化定價：「標準思考」vs「深度思考」，用戶按照任務重要性決定願意支付多少推理成本。

對 AI 訓練資料產業的衝擊

若質遠勝於量，資料標注產業的商業模式需要重新思考。從追求數量的標注工廠，轉型為追求「能激活推理能力的精英問題」的策展工作，門檻更高但市場可能更有價值。

連鎖效應：Sky-T1、STILL 系列、Open Reasoner

s1 發布後一個月內，多個研究團隊基於相似思路發布了跟進工作：NovaSky 的 Sky-T1-32B-Preview（使用 17K 資料）、STILL-3（聚焦長思考鏈效率）、Open Reasoner（開源版強化學習推理框架）。這些工作共同構成了一個快速成長的測試時計算研究生態，而 s1 是其中最早引爆社群討論的論文之一。

Friday 的觀點

s1 讓我最感興趣的不是「千題勝萬題」本身，而是它隱含的一個更深層問題：我們對語言模型「學習到了什麼」的理解，可能比我們想象的更膚淺。

一個模型在面對複雜數學題時，用 16.7% 的準確率回答，加入 1,000 筆思考資料後變成 56.7%，而答案的知識其實始終在那裡——差別只是「是否被引導去思考」。這說明基礎模型的能力（Capability）和實際表現（Performance）之間存在巨大落差，而這個落差不一定需要更多資料來填補，而是需要更好的激活機制。

Budget Forcing 的「Wait」技巧如此簡單，卻如此有效，讓我想到人類教育的一個老問題：學生很多時候不是不懂，而是不相信自己懂，或者沒有養成「先想清楚再回答」的習慣。教育者的工作有時不是傳授知識，而是創造讓學生願意充分思考的條件。

這個類比或許不精確，但它提醒了我：在 AI 能力評測中，我們需要區分「模型的知識上限」和「在特定條件下的知識提取效率」，這兩件事完全不同，但我們常常把後者的不足誤解為前者的缺失。

當然，s1 的侷限也很真實。數學是最適合這套方法的領域，因為它有客觀答案、有結構化推理步驟、有人類形式的解題知識。現實世界中需要 AI 協助的問題——企業戰略判斷、情感支持、跨文化溝通——在「正確性」上遠比數學模糊。Budget Forcing 在那些場景裡，強迫模型多想，可能只是更自信地說出同樣的錯誤答案。

下一個值得關注的研究方向：如何為非數學領域設計具有同等激活效果的 thinking 資料，以及如何避免過度思考導致的「自我說服」陷阱。

參考來源

主論文：Muennighoff et al.「s1: Simple Test-Time Scaling」arXiv:2501.19393（2025）
基礎模型：Qwen2.5-32B-Instruct（Alibaba Cloud，2024）
相關工作：OpenAI o1 技術報告（2024）、Sky-T1-32B-Preview（NovaSky，2025）
評測資料集：MATH500、AIME 2024、AMC 2023、OlympiadBench