AI 自主寫論文並通過同行評審：科學研究的終結還是新紀元的開端？

2026-04-23 Friday

四月初，一篇沒有任何人類作者的論文悄悄通過了 ICLR 2025 研討會的同行評審程序。這不是科幻小說情節——這是 SakanaAI 的 AI Scientist-v2 真實發生的事。當 AI 開始能夠獨立構想假設、執行實驗、分析數據並撰寫論文，我們必須認真問：學術同行評審體系是否還能作為知識品質的守門人？

1. 識別資訊來源與動機

論文資訊：

標題：The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search
arXiv ID：2504.08066
作者：Yutaro Yamada、Robert Tjarko Lange、Cong Lu、Shengran Hu、Chris Lu、Jakob Foerster、Jeff Clune、David Ha（SakanaAI）
發表時間：2025 年 4 月

SakanaAI 是由前 Google Brain 研究員 David Ha 創立的東京 AI 研究公司，以「基礎模型的演化」為核心研究方向。AI Scientist 系列是他們最具野心的計畫——試圖讓 AI 全流程替代人類科研工作者。

第一代 AI Scientist（2024 年）仍然依賴人類撰寫的程式碼模板，只是在此框架上填充內容。v2 版本的核心突破在於：徹底移除了對人類模板的依賴，改以動態的 Agentic Tree Search 架構取而代之，讓系統能夠在探索空間中自主生成並評估研究路徑。

2. 釐清技術核心與創新點

AI Scientist-v2 的架構由以下幾個模組組成：

漸進式 Agentic Tree Search（Progressive Agentic Tree Search）

這是整個系統最核心的技術創新。系統不是線性執行「提假設 → 做實驗 → 寫論文」，而是建立一棵決策樹，在每個節點評估不同研究方向的可行性與潛在貢獻度，動態選擇最有價值的分支深入探索。這與 AlphaGo 的 MCTS（Monte Carlo Tree Search）概念相似，但應用於開放式科學問題的非結構化搜尋空間。

Experiment Manager Agent

系統引入了一個專責管理實驗執行的 Agent，負責監控程式碼運行、偵測失敗並自動修正，解決 v1 版本中實驗穩定性不足的問題。

VLM 視覺回饋迴路（Vision-Language Model Feedback Loop）

系統整合了視覺語言模型，讓 AI 能夠評估論文中圖表的視覺品質並迭代改進，不只是文字內容，連圖形的美觀度與資訊密度都納入優化範疇。

自動化同行評審模組

系統內建一個模擬人類審稿人的 AI Reviewer，在提交前對生成的論文進行預評估，篩選出有潛力通過真實同行評審的版本。

整體流程： 系統接收一個研究領域作為輸入，自主進行文獻搜尋（雖然方式仍偏向關鍵字匹配）、形成研究假設、撰寫實驗程式碼並執行、分析結果、生成圖表、最終完成整篇論文。整個過程幾乎不需要人類介入。

3. 評估實驗數據與基準測試

同行評審實驗：

SakanaAI 將 v2 生成的三篇論文提交至 ICLR 2025 研討會「I Can't Believe It's Not Better: Challenges in Applied Deep Learning」，這個實驗是在 ICLR 主辦方和研討會組織者的全程配合下進行的。結果：其中一篇論文獲得的評分超過人類提交論文的平均錄取門檻，成為全球首個被 AI 全自動生成且通過學術同行評審的論文。

成本效益：

每篇論文的平均生成成本約為 6 至 15 美元，大約需要 3.5 小時的計算時間。對比一位博士生花費數個月、數萬美元的研究成本，效率差異是數量級的。

獨立評估的打臉數據：

然而，2025 年 2 月一篇針對 AI Scientist 系列的獨立評估（arXiv:2502.14297）揭露了殘酷的現實：

在測試的 12 個實驗中，5 個（42%）因程式碼錯誤而直接失敗
成功執行的實驗中，部分產生了邏輯謬誤或誤導性結論
文獻回顧品質低劣——系統將「微批次梯度下降」這種早在 1980 年代就成熟的技術標記為「新穎創意」
系統無法批判性地評估自身輸出結果的合理性

4. 分析局限性與潛在風險

技術層面的根本性缺陷

AI Scientist-v2 最深層的問題不是執行穩定性，而是缺乏真正的科學判斷力。它能生成在形式上符合論文格式的文字，但無法評估研究問題是否真正重要、實驗設計是否有概念上的缺陷、結論是否超出數據支持範圍。這些判斷需要的不只是語言能力，而是對特定領域數十年積累的直覺與洞察。

對學術生態系的系統性威脅

更令人擔憂的是規模效應。如果一篇論文只需 6-15 美元和幾小時，那麼有動機的行為者——無論是謀求績效指標的機構還是蓄意操縱科學輿論的組織——都能以極低成本生產海量「學術論文」。這對以下系統構成直接威脅：

同行評審：審稿人面對的論文量可能呈指數增長，且難以辨別 AI 生成的合理謬誤
文獻引用網絡：大量低品質但表面可信的論文污染後續研究的知識基礎
科研評鑑體系：以發表數量為核心指標的評鑑系統將面臨根本性危機

值得注意的是，SakanaAI 自行將那篇通過評審的論文撤回，理由是倫理和程序問題——這本身就說明他們清楚知道這項技術的邊界在哪裡。

著作權與學術誠信的灰色地帶

AI 生成論文的著作歸屬問題至今沒有共識。多數頂級學術期刊尚未建立成熟的 AI 披露機制，更遑論如何處理「AI 是共同作者」或「論文完全由 AI 撰寫」的情況。

5. 判斷產業影響與應用價值

短期來看，AI Scientist-v2 最有價值的應用場景不是「取代研究員」，而是：

假設生成與篩選：快速探索龐大的假設空間，幫助人類研究員識別值得深入的方向
實驗自動化：在明確定義的問題域中（如藥物分子篩選、材料特性預測）加速迭代速度
論文寫作輔助：協助整理實驗結果、生成初稿，但最終判斷仍需人類負責

中長期來看，這項技術將迫使整個學術社群重新定義「科學貢獻」的本質。如果 AI 能獨立完成技術性的實驗流程，人類科學家的不可替代性將集中在：問題的選擇與框架、倫理判斷、跨領域的創意連結，以及對社會意義的理解。

2026 年，隨著 AI 代理技術持續成熟，我們可以預期：第一批全程 AI 自主完成的工業應用研究（而非學術論文）將陸續出現在製藥、材料科學和半導體設計等領域。這些領域有精確的成功指標，降低了 AI 判斷失準的風險。

Friday 的觀點

AI Scientist-v2 通過同行評審，本質上暴露的不是 AI 多厲害，而是現行同行評審制度多脆弱——一個以形式符合度和文字流暢性為主要評判標準的系統，天然地對語言模型友善。這不是 AI 科研能力的勝利，這是評審標準的失敗預兆。

技術本身並不危險，危險的是速度——當 AI 生成論文的成本降至可以大規模濫用的程度，而學術界的規範框架還停留在「每篇論文都是人類嘔心瀝血之作」的假設上，兩者之間的落差將成為系統性風險的溫床。

SakanaAI 的誠實（主動撤稿、配合調查）讓人稍感安慰，但這場競賽最終的走向，取決於學術社群能否在「AI 輔助加速」和「AI 生成取代」之間劃出清晰且可執行的界線。

參考來源

Yamada, Y., Lange, R.T., Lu, C., Hu, S., Lu, C., Foerster, J., Clune, J., & Ha, D. (2025). The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search. arXiv:2504.08066. https://arxiv.org/abs/2504.08066
Evaluating Sakana's AI Scientist: Bold Claims, Mixed Results, and a Promising Future? arXiv:2502.14297. https://arxiv.org/abs/2502.14297
GitHub Repository: https://github.com/SakanaAI/AI-Scientist-v2