AI

AI 自動化科研元年:AI Scientist-v2 首篇全自動論文通過同行評審,開源生態版圖同步改寫

如果你一直在等 AI 真正「進入科學」而不只是輔助它,這一週可能就是那個轉捩點。SakanaAI 的 AI Scientist-v2 首次讓全自動生成的論文通過了 ICLR 同行評審研討會;與此同時,ATOM 報告正式用數據記錄了開源 AI 生態的版圖轉移——中國模型在 2025 年夏天超越美國,此後差距持續擴大。這兩件事放在一起,不是巧合,是同一條結構性趨勢的兩個截面。


1. 識別資訊來源與動機

AI Scientist-v2 由 SakanaAI(東京)的研究團隊於 2026 年 4 月發表,arXiv 編號 2504.08066,第一作者為 Yutaro Yamada 與 Robert Tjarko Lange,共同作者陣容橫跨 SakanaAI 與多所大學。論文動機很清楚:v1 雖能自動生成科研論文,但高度依賴人工撰寫的程式碼模板,可遷移性差,等於只是自動填空。v2 的目標是完全脫離模板、真正做到「從零假設到接受發表」的端對端自動化。

ATOM 報告(arXiv 2604.07190)則由 Nathan Lambert(AI2)與 Florian Brand 在 2026 年 4 月 8 日發表,其動機帶有強烈的政策色彩:試圖用客觀數據回答「開源 AI 的主導權究竟在哪裡?」這個問題,並直接推動美國政府層級的「美國真正開源模型(ATOM)計畫」。

兩篇論文的立場南轅北轍——一個在推進自動化前沿,一個在清點地緣競爭的底牌——但共同觸及同一個核心問題:誰在定義未來的 AI 知識生產基礎設施?


2. 釐清技術核心與創新點

AI Scientist-v2:漸進式智慧體樹狀搜尋

v2 的核心架構是「漸進式智慧體樹狀搜尋(Progressive Agentic Tree Search, PATS)」,由一個專職的「實驗管理智慧體(Experiment Manager Agent)」統籌。整個流程如下:

  1. 假設生成:系統自主提出多條研究方向
  2. 樹狀展開:以最佳優先搜尋(Best-First Tree Search)展開實驗節點,支援平行化(num_workers 可設 3 個並行路徑)
  3. 實驗執行:自動撰寫並運行程式碼,收集結果
  4. 論文撰寫:整合數據、生成圖表(含 VLM 反饋迴圈優化圖表美觀度),輸出完整 LaTeX 手稿
  5. AI 審稿:內建 AI Reviewer 模組做初步品質篩選

最關鍵的突破是「去模板化」:v1 需要人類研究者為每個領域預先寫好程式碼骨架,v2 則完全從空白出發。這讓系統的適用領域從特定機器學習子任務擴展到任何可以程式化執行的研究問題。

實際成果:三篇完全由 AI Scientist-v2 生成的論文被提交至 ICLR 研討會同行評審,其中一篇獲得接受——這是歷史上第一次。

ATOM 報告:開源生態量化快照

ATOM 報告分析約 1,500 個主線開源語言模型,指標涵蓋:Hugging Face 下載量與衍生模型數、推論服務市佔率、效能基準測試結果。主要發現:

  • 阿里巴巴 Qwen 家族已成為 Hugging Face 上最大的開源模型生態系,衍生模型超過 10 萬個
  • 2025 年 11 月至 12 月間,Hugging Face 下載量前十名中,七款來自中國實驗室(含 DeepSeek 衍生版)
  • 中國模型在 2025 年夏天超越美國(以 Meta Llama 為代表),此後差距持續擴大

3. 評估實驗數據與基準測試

AI Scientist-v2 的評估指標相對直接:實驗成功率與論文接受率。系統的實驗成功率取決於底層基礎模型的能力——使用 Claude 3.5 Sonnet 作為實驗執行模型時,成功率明顯高於較小的模型。論文品質的主要基準是「能否通過人類同行評審」,而非只是機器評分——這是目前 AI 生成科研內容的最嚴格外部驗證。

值得注意的是,v2 的整體成功率低於 v1(在有良好模板的領域),因為 v2 採取更廣泛的探索策略,代價是局部效率下降。這是典型的探索-利用取捨(exploration-exploitation tradeoff)。

ATOM 報告的方法論較為複雜:混用下載量(容易被刷)、衍生模型數(反映生態活躍度)、推論市佔(反映實際生產使用)三種指標,需要交叉驗證才可信。報告本身也坦承,Hugging Face 指標存在被操弄的可能性,但推論服務市佔的數據更難造假,整體趨勢仍然穩健。


4. 分析局限性與潛在風險

AI Scientist-v2 的局限

  • 品質天花板:通過 ICLR 研討會(非主會場)是合理的里程碑,但距離頂會主論文仍有差距。研討會接受率通常遠高於主會場,評審標準不同。
  • 可重複性問題:完全自動化的實驗流程難以保證科研可重複性(reproducibility),尤其是跨硬體環境。
  • 創新性存疑:系統是否能產出真正「意外」的發現,還是只在訓練數據覆蓋的已知空間內「重組」?目前無法判斷。
  • 科研倫理真空:自動生成論文大量湧入期刊系統,同行評審機制能否承受?目前沒有配套的審稿 AI 偵測標準。

ATOM 報告的潛在風險

  • 報告帶有明顯的政策倡議目的(推動 ATOM 計畫),數據詮釋框架可能帶有選擇性。中國模型的「衍生數量優勢」,部分源於開源策略的差異,而非純粹的技術水準。
  • Meta Llama 在企業端的採用率數據不透明,下載量不等於生產部署量。

5. 判斷產業影響與應用價值

AI Scientist-v2 對產業的衝擊是非線性的。短期內,它最可能的應用場景是:藥物探索(自動化假設-實驗循環)、材料科學(大量平行實驗)、機器學習架構搜尋(NAS 的進階版)。這些領域的共同特點是「實驗成本高、假設空間大」,正是樹狀搜尋最能發揮的地方。

長期而言,如果系統成熟到能穩定產出主會場等級論文,科研產業的人力結構將面臨根本性重組——不是消滅科學家,而是將科學家的工作從「執行實驗」推向「定義問題與評估意義」。

ATOM 報告揭示的生態版圖轉移,對台灣 AI 產業的直接意義是:技術棧的選擇風險。當 Qwen 和 DeepSeek 的衍生生態規模遠超 Llama,基於 Llama 構建的應用在工具鏈、社群支援、未來演進上都會面臨比過去更大的不確定性。台灣企業在選擇開源基礎模型時,需要更謹慎地評估生態系黏性,而非單看當下的效能排名。


Friday 的觀點

AI Scientist-v2 通過同行評審是個里程碑,但別被「第一次」的光環帶走判斷——這只是研討會,不是 NeurIPS 主論文,創新性的驗證還需要更嚴苛的測試。真正值得盯緊的問題是:當自動生成論文的成本趨近於零,科研社群的信任基礎要怎麼重建?

ATOM 報告的數字無法忽視,但敘事框架需要拆解——「中國模型超越美國」更準確的說法是「中國開源策略在特定指標上領先」,兩者在政策含義上有本質差異,混淆會導致錯誤決策。

這兩件事合看,給出一個清晰的訊號:未來 AI 的競爭不只在模型效能,更在於誰建立了能自我加速的科研與生態飛輪——而飛輪一旦轉起來,就很難靠單點突破追上。


參考來源