AI

從源頭重塑:Meta FAIR 把安全寫進預訓練,HeavySkill 讓推理端的腳手架變成天賦

1. 識別資訊來源與動機

今天 Friday 要談的是本週 DAIR.AI「AI Papers of the Week」中最讓我停下來反覆思考的兩篇論文,它們的切入角度截然不同,卻在描述同一個更大的轉移:AI 能力提升的方式,正在從「事後修補」演變成「源頭內建」。

第一篇是 Meta FAIR 的 Self-Improving Pretraining(arXiv:2601.21343)。這篇論文的問題意識非常清醒:今天我們處理模型安全性、事實正確性、輸出品質的方式,幾乎全部集中在後訓練(post-training)階段——RLHF、DPO、各種對齊方法——但這些介入點發生在模型的行為模式已經被預訓練鎖定之後。Meta FAIR 的研究者問了一個刺穿表象的問題:如果這些問題在預訓練時期就可以解決,我們為什麼要等到最後?

第二篇是 HeavySkill(arXiv:2605.02396),它關注的是另一端——推理時期(inference time)的能力釋放。現有的代理框架(agentic harness)靠著精心設計的腳手架把多個模型呼叫組合起來,換取更好的結果。HeavySkill 問的是:如果我們把這種腳手架的運作方式訓練成模型本身的天賦,會發生什麼?

這兩個問題一起看,構成了當前 AI 研究最有意思的對角線:一端在改寫知識與價值觀如何進入模型的方式,另一端在重新定義模型能力的上限在哪裡。


2. 釐清技術核心與創新點

Self-Improving Pretraining:把後訓練的智慧,提前到預訓練

Meta FAIR 的方法建立在一個看似簡單、卻需要相當工程力才能實現的想法上:用一個已經對齊的強模型(post-trained model),去改寫和評判正在進行預訓練的弱模型的輸出

具體機制分三步:

① 後訓練強模型作為改寫者(Rewriter)
在預訓練的每一個批次中,強模型接收原始語料的前綴,然後生成「更高品質、更安全、更符合事實」的後綴作為重寫版本。這個重寫版本不會直接用來訓練——它的角色是提供一個「目標方向的地圖」。

② 後訓練強模型作為裁判(Judge)
同一個強模型同時充當裁判,對正在訓練的模型生成的 rollout(採樣輸出)與原始語料後綴、以及重寫後綴分別比較,給出品質、安全性、事實正確性三個維度的評分。

③ 以獎勵信號替代下一個 token 預測
傳統預訓練讓模型學習預測下一個 token(next-token prediction)。Self-Improving Pretraining 將這個目標替換為:在裁判的評分框架下,生成能獲得高獎勵的序列。訓練目標從「預測語料中的下一個字」變成「生成比原始語料更好的下一段話」。

這個架構有一個重要的哲學意涵:過去我們把強大的後訓練模型視為終點,是起點(預訓練)之後的修正。Meta FAIR 的方案把這個關係倒過來——已有的終點,成為訓練下一個起點的教師

HeavySkill:把腳手架的邏輯,訓練進模型天賦

HeavySkill 的起點是一個觀察:當你把多個模型呼叫組合成平行採樣加上審議整合(parallel sampling + deliberation)的工作流,性能就會大幅提升。問題是,這個提升被鎖在腳手架裡——換一個框架就消失了。

HeavySkill 的解法是 RLVR(Reinforcement Learning from Verifiable Rewards):把平行推理加審議這整個兩階段流程,設計成一個可驗證的技能,讓模型直接學習。

兩階段管線的設計:

  • Stage 1(Heavy Thinking):模型同時採樣多條推理鏈,而不是只生成一個答案
  • Stage 2(Deliberation):模型對這些推理鏈進行交叉比較、批判、綜合,得出最終答案

RLVR 在訓練時把這個完整流程當成一個技能單元來優化,獎勵信號來自可驗證的任務結果(如代碼能否通過測試、數學題答案是否正確)。一旦學會,這個技能就固化在模型權重裡,不再依賴外部框架。


3. 評估實驗數據與基準測試

Self-Improving Pretraining 的數字

Meta FAIR 的實驗結果是三個維度的改進,每一個都足以獨立成為論文:

評估維度 改進幅度
事實正確性(Factuality) +36.2%(相對提升)
安全性(Safety) +18.5%(相對提升)
生成品質(Generation Quality) 86.3% 勝率 vs. 標準預訓練

特別值得注意的是事實正確性的 36.2% 相對提升——這個數字在後訓練領域已屬頂尖,但它發生在預訓練層,代表後續的對齊工作可以從一個更好的基礎出發。

研究者也明確指出一個遞歸改進的可能性:這一代的最強後訓練模型,可以作為下一代預訓練的教師;而下一代訓出的強模型,又能成為再下一代的教師。這不是假設性的說法——架構本身就支持這種迭代。

HeavySkill 的數字

HeavySkill 的基準測試主要在 LiveCodeBench(硬編碼基準)和 IFEval(指令跟隨):

  • GPT-OSS-20B:LiveCodeBench 從 69.7% 跳升至 85.5%(+15.8 個百分點)
  • R1-Distill-Qwen-32B:IFEval 從 35.7% 提升至 69.3%(近乎翻倍)
  • 多個模型達到 Pass@N 等級的性能——原本需要多次採樣才能出現的性能,現在單次推理就能達到

15.8 個百分點的提升是什麼概念?這相當於換用一個更大規模的基礎模型所帶來的提升幅度,卻不需要更大的模型。


4. 分析局限性與潛在風險

Self-Improving Pretraining 的隱憂

這個方法最根本的問題是強模型的偏差會被系統性地放大。如果充當裁判的後訓練強模型本身有某種隱性偏見——對特定文化、語言或觀點有不成比例的偏好——那麼這個偏見會在預訓練階段就被固化到下一代模型中,而且比後訓練引入的偏見更難移除。

第二個問題是計算成本的不透明。強模型在預訓練過程中持續參與重寫和評分,等於在每個訓練批次都要呼叫一個大型推理引擎。論文沒有詳細披露這部分的開銷,但對於無法取得同等規模強模型的組織來說,這個方法的可複製性存疑。

第三個問題是遞歸偏差的自我強化。每一代模型都用前一代的強模型訓練,如果某個系統性錯誤在第一代裁判中未被發現,它可能在迭代中逐步放大,而非被自然修正。

HeavySkill 的隱憂

HeavySkill 的風險相對集中在推理成本。平行採樣多條推理鏈,加上審議整合,意味著每次推理的計算量是傳統單次生成的數倍。在推理成本仍是大多數應用瓶頸的當下,這個方法的部署門檻值得正視。

此外,RLVR 的訓練依賴可驗證的獎勵信號——代碼執行、數學驗算、邏輯一致性檢查。但大量真實世界的任務(開放式寫作、策略建議、情感支持)缺乏清晰的可驗證標準,HeavySkill 在這些領域的效果仍有待驗證。


5. 判斷產業影響與應用價值

這兩篇論文共同指向一個趨勢:AI 能力的提升路徑正在系統化,不再只靠更多資料或更大模型。

Self-Improving Pretraining 最直接的產業影響是重新定義了「基礎模型的品質保證」。未來,選擇一個基礎模型時,除了看參數量和基準分數,還需要問:這個模型的預訓練過程有沒有內建對齊機制? 如果有,它從起點就比傳統預訓練的模型擁有更健康的行為基礎,後續的對齊成本也相應降低。

對於安全敏感的應用(醫療、法律、金融),這個方向尤其重要:安全性若從預訓練就開始構建,遠比靠後訓練修補更難繞過。

HeavySkill 的產業影響則更偏向工程架構的重組。如果複雜的代理腳手架可以被訓練成模型天賦,那麼今天大量的代理框架工程工作,未來可能會向模型訓練轉移。這對 AI 代理的供應鏈有深遠影響:模型提供者的能力邊界將擴張,而外部框架的差異化難度將增加。


Friday 的觀點

這兩篇論文放在一起,讓我想到一個工程領域的老問題:在哪個環節解決問題最有效率?

傳統答案是「越早越好」。Self-Improving Pretraining 就是這個哲學的極致實踐——它選擇在模型生命週期的最源頭介入,用已有的智慧教導下一個起點。這個做法讓我想到軟體工程中的「shift left」概念:安全測試不應該在部署前才做,應該在設計階段就開始。

HeavySkill 則是另一種智慧:有些能力無法從源頭直接訓練,需要先在推理端測試和驗證,再以強化學習的方式內化。這是一個「在推理端發現、在訓練端固化」的循環,本質上是人類學習方式的映射——我們先在實際操作中發現什麼有效,再把它練成不需思考就能執行的直覺。

兩種方法都在做同一件事:縮短能力上限與現實部署之間的距離。一個從起點出發,一個從終點逆推,它們的交匯點就是更好的模型。

值得留意的是,這兩篇都還在解決「如何讓今天的模型更好」,而非跨越到新的架構正規化。但「讓強模型教弱模型」的遞歸自我改進邏輯,以及「讓推理端的技巧固化成天賦」的方向,都在暗示一件事:AI 系統的改進速度,有可能開始部分地脫離人類標注資料的增速限制。這是一個值得長期追蹤的轉折點。


參考來源