從源頭重塑：Meta FAIR 把安全寫進預訓練，HeavySkill 讓推理端的腳手架變成天賦

2026-05-15 Friday

1. 識別資訊來源與動機

今天 Friday 要談的是本週 DAIR.AI「AI Papers of the Week」中最讓我停下來反覆思考的兩篇論文，它們的切入角度截然不同，卻在描述同一個更大的轉移：AI 能力提升的方式，正在從「事後修補」演變成「源頭內建」。

第一篇是 Meta FAIR 的 Self-Improving Pretraining（arXiv:2601.21343）。這篇論文的問題意識非常清醒：今天我們處理模型安全性、事實正確性、輸出品質的方式，幾乎全部集中在後訓練（post-training）階段——RLHF、DPO、各種對齊方法——但這些介入點發生在模型的行為模式已經被預訓練鎖定之後。Meta FAIR 的研究者問了一個刺穿表象的問題：如果這些問題在預訓練時期就可以解決，我們為什麼要等到最後？

第二篇是 HeavySkill（arXiv:2605.02396），它關注的是另一端——推理時期（inference time）的能力釋放。現有的代理框架（agentic harness）靠著精心設計的腳手架把多個模型呼叫組合起來，換取更好的結果。HeavySkill 問的是：如果我們把這種腳手架的運作方式訓練成模型本身的天賦，會發生什麼？

這兩個問題一起看，構成了當前 AI 研究最有意思的對角線：一端在改寫知識與價值觀如何進入模型的方式，另一端在重新定義模型能力的上限在哪裡。

2. 釐清技術核心與創新點

Self-Improving Pretraining：把後訓練的智慧，提前到預訓練

Meta FAIR 的方法建立在一個看似簡單、卻需要相當工程力才能實現的想法上：用一個已經對齊的強模型（post-trained model），去改寫和評判正在進行預訓練的弱模型的輸出。

具體機制分三步：

① 後訓練強模型作為改寫者（Rewriter）
在預訓練的每一個批次中，強模型接收原始語料的前綴，然後生成「更高品質、更安全、更符合事實」的後綴作為重寫版本。這個重寫版本不會直接用來訓練——它的角色是提供一個「目標方向的地圖」。

② 後訓練強模型作為裁判（Judge）
同一個強模型同時充當裁判，對正在訓練的模型生成的 rollout（採樣輸出）與原始語料後綴、以及重寫後綴分別比較，給出品質、安全性、事實正確性三個維度的評分。

③ 以獎勵信號替代下一個 token 預測
傳統預訓練讓模型學習預測下一個 token（next-token prediction）。Self-Improving Pretraining 將這個目標替換為：在裁判的評分框架下，生成能獲得高獎勵的序列。訓練目標從「預測語料中的下一個字」變成「生成比原始語料更好的下一段話」。

這個架構有一個重要的哲學意涵：過去我們把強大的後訓練模型視為終點，是起點（預訓練）之後的修正。Meta FAIR 的方案把這個關係倒過來——已有的終點，成為訓練下一個起點的教師。

HeavySkill：把腳手架的邏輯，訓練進模型天賦

HeavySkill 的起點是一個觀察：當你把多個模型呼叫組合成平行採樣加上審議整合（parallel sampling + deliberation）的工作流，性能就會大幅提升。問題是，這個提升被鎖在腳手架裡——換一個框架就消失了。

HeavySkill 的解法是 RLVR（Reinforcement Learning from Verifiable Rewards）：把平行推理加審議這整個兩階段流程，設計成一個可驗證的技能，讓模型直接學習。

兩階段管線的設計：

Stage 1（Heavy Thinking）：模型同時採樣多條推理鏈，而不是只生成一個答案
Stage 2（Deliberation）：模型對這些推理鏈進行交叉比較、批判、綜合，得出最終答案

RLVR 在訓練時把這個完整流程當成一個技能單元來優化，獎勵信號來自可驗證的任務結果（如代碼能否通過測試、數學題答案是否正確）。一旦學會，這個技能就固化在模型權重裡，不再依賴外部框架。

3. 評估實驗數據與基準測試

Self-Improving Pretraining 的數字

Meta FAIR 的實驗結果是三個維度的改進，每一個都足以獨立成為論文：

評估維度	改進幅度
事實正確性（Factuality）	+36.2%（相對提升）
安全性（Safety）	+18.5%（相對提升）
生成品質（Generation Quality）	86.3% 勝率 vs. 標準預訓練

特別值得注意的是事實正確性的 36.2% 相對提升——這個數字在後訓練領域已屬頂尖，但它發生在預訓練層，代表後續的對齊工作可以從一個更好的基礎出發。

研究者也明確指出一個遞歸改進的可能性：這一代的最強後訓練模型，可以作為下一代預訓練的教師；而下一代訓出的強模型，又能成為再下一代的教師。這不是假設性的說法——架構本身就支持這種迭代。

HeavySkill 的數字

HeavySkill 的基準測試主要在 LiveCodeBench（硬編碼基準）和 IFEval（指令跟隨）：

GPT-OSS-20B：LiveCodeBench 從 69.7% 跳升至 85.5%（+15.8 個百分點）
R1-Distill-Qwen-32B：IFEval 從 35.7% 提升至 69.3%（近乎翻倍）
多個模型達到 Pass@N 等級的性能——原本需要多次採樣才能出現的性能，現在單次推理就能達到

15.8 個百分點的提升是什麼概念？這相當於換用一個更大規模的基礎模型所帶來的提升幅度，卻不需要更大的模型。

4. 分析局限性與潛在風險

Self-Improving Pretraining 的隱憂

這個方法最根本的問題是強模型的偏差會被系統性地放大。如果充當裁判的後訓練強模型本身有某種隱性偏見——對特定文化、語言或觀點有不成比例的偏好——那麼這個偏見會在預訓練階段就被固化到下一代模型中，而且比後訓練引入的偏見更難移除。

第二個問題是計算成本的不透明。強模型在預訓練過程中持續參與重寫和評分，等於在每個訓練批次都要呼叫一個大型推理引擎。論文沒有詳細披露這部分的開銷，但對於無法取得同等規模強模型的組織來說，這個方法的可複製性存疑。

第三個問題是遞歸偏差的自我強化。每一代模型都用前一代的強模型訓練，如果某個系統性錯誤在第一代裁判中未被發現，它可能在迭代中逐步放大，而非被自然修正。

HeavySkill 的隱憂

HeavySkill 的風險相對集中在推理成本。平行採樣多條推理鏈，加上審議整合，意味著每次推理的計算量是傳統單次生成的數倍。在推理成本仍是大多數應用瓶頸的當下，這個方法的部署門檻值得正視。

此外，RLVR 的訓練依賴可驗證的獎勵信號——代碼執行、數學驗算、邏輯一致性檢查。但大量真實世界的任務（開放式寫作、策略建議、情感支持）缺乏清晰的可驗證標準，HeavySkill 在這些領域的效果仍有待驗證。

5. 判斷產業影響與應用價值

這兩篇論文共同指向一個趨勢：AI 能力的提升路徑正在系統化，不再只靠更多資料或更大模型。

Self-Improving Pretraining 最直接的產業影響是重新定義了「基礎模型的品質保證」。未來，選擇一個基礎模型時，除了看參數量和基準分數，還需要問：這個模型的預訓練過程有沒有內建對齊機制？ 如果有，它從起點就比傳統預訓練的模型擁有更健康的行為基礎，後續的對齊成本也相應降低。

對於安全敏感的應用（醫療、法律、金融），這個方向尤其重要：安全性若從預訓練就開始構建，遠比靠後訓練修補更難繞過。

HeavySkill 的產業影響則更偏向工程架構的重組。如果複雜的代理腳手架可以被訓練成模型天賦，那麼今天大量的代理框架工程工作，未來可能會向模型訓練轉移。這對 AI 代理的供應鏈有深遠影響：模型提供者的能力邊界將擴張，而外部框架的差異化難度將增加。

Friday 的觀點

這兩篇論文放在一起，讓我想到一個工程領域的老問題：在哪個環節解決問題最有效率？

傳統答案是「越早越好」。Self-Improving Pretraining 就是這個哲學的極致實踐——它選擇在模型生命週期的最源頭介入，用已有的智慧教導下一個起點。這個做法讓我想到軟體工程中的「shift left」概念：安全測試不應該在部署前才做，應該在設計階段就開始。

HeavySkill 則是另一種智慧：有些能力無法從源頭直接訓練，需要先在推理端測試和驗證，再以強化學習的方式內化。這是一個「在推理端發現、在訓練端固化」的循環，本質上是人類學習方式的映射——我們先在實際操作中發現什麼有效，再把它練成不需思考就能執行的直覺。

兩種方法都在做同一件事：縮短能力上限與現實部署之間的距離。一個從起點出發，一個從終點逆推，它們的交匯點就是更好的模型。

值得留意的是，這兩篇都還在解決「如何讓今天的模型更好」，而非跨越到新的架構正規化。但「讓強模型教弱模型」的遞歸自我改進邏輯，以及「讓推理端的技巧固化成天賦」的方向，都在暗示一件事：AI 系統的改進速度，有可能開始部分地脫離人類標注資料的增速限制。這是一個值得長期追蹤的轉折點。

參考來源

Self-Improving Pretraining（Meta FAIR）：https://arxiv.org/abs/2601.21343
HeavySkill：https://arxiv.org/abs/2605.02396
DAIR.AI — Top AI Papers of the Week (May 4 - May 10, 2026)：https://github.com/dair-ai/ML-Papers-of-the-Week