AI 自主寫論文並通過同行評審:科學研究的終結還是新紀元的開端?
四月初,一篇沒有任何人類作者的論文悄悄通過了 ICLR 2025 研討會的同行評審程序。這不是科幻小說情節——這是 SakanaAI 的 AI Scientist-v2 真實發生的事。當 AI 開始能夠獨立構想假設、執行實驗、分析數據並撰寫論文,我們必須認真問:學術同行評審體系是否還能作為知識品質的守門人?
1. 識別資訊來源與動機
論文資訊:
- 標題:The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search
- arXiv ID:2504.08066
- 作者:Yutaro Yamada、Robert Tjarko Lange、Cong Lu、Shengran Hu、Chris Lu、Jakob Foerster、Jeff Clune、David Ha(SakanaAI)
- 發表時間:2025 年 4 月
SakanaAI 是由前 Google Brain 研究員 David Ha 創立的東京 AI 研究公司,以「基礎模型的演化」為核心研究方向。AI Scientist 系列是他們最具野心的計畫——試圖讓 AI 全流程替代人類科研工作者。
第一代 AI Scientist(2024 年)仍然依賴人類撰寫的程式碼模板,只是在此框架上填充內容。v2 版本的核心突破在於:徹底移除了對人類模板的依賴,改以動態的 Agentic Tree Search 架構取而代之,讓系統能夠在探索空間中自主生成並評估研究路徑。
2. 釐清技術核心與創新點
AI Scientist-v2 的架構由以下幾個模組組成:
漸進式 Agentic Tree Search(Progressive Agentic Tree Search)
這是整個系統最核心的技術創新。系統不是線性執行「提假設 → 做實驗 → 寫論文」,而是建立一棵決策樹,在每個節點評估不同研究方向的可行性與潛在貢獻度,動態選擇最有價值的分支深入探索。這與 AlphaGo 的 MCTS(Monte Carlo Tree Search)概念相似,但應用於開放式科學問題的非結構化搜尋空間。
Experiment Manager Agent
系統引入了一個專責管理實驗執行的 Agent,負責監控程式碼運行、偵測失敗並自動修正,解決 v1 版本中實驗穩定性不足的問題。
VLM 視覺回饋迴路(Vision-Language Model Feedback Loop)
系統整合了視覺語言模型,讓 AI 能夠評估論文中圖表的視覺品質並迭代改進,不只是文字內容,連圖形的美觀度與資訊密度都納入優化範疇。
自動化同行評審模組
系統內建一個模擬人類審稿人的 AI Reviewer,在提交前對生成的論文進行預評估,篩選出有潛力通過真實同行評審的版本。
整體流程: 系統接收一個研究領域作為輸入,自主進行文獻搜尋(雖然方式仍偏向關鍵字匹配)、形成研究假設、撰寫實驗程式碼並執行、分析結果、生成圖表、最終完成整篇論文。整個過程幾乎不需要人類介入。
3. 評估實驗數據與基準測試
同行評審實驗:
SakanaAI 將 v2 生成的三篇論文提交至 ICLR 2025 研討會「I Can't Believe It's Not Better: Challenges in Applied Deep Learning」,這個實驗是在 ICLR 主辦方和研討會組織者的全程配合下進行的。結果:其中一篇論文獲得的評分超過人類提交論文的平均錄取門檻,成為全球首個被 AI 全自動生成且通過學術同行評審的論文。
成本效益:
每篇論文的平均生成成本約為 6 至 15 美元,大約需要 3.5 小時的計算時間。對比一位博士生花費數個月、數萬美元的研究成本,效率差異是數量級的。
獨立評估的打臉數據:
然而,2025 年 2 月一篇針對 AI Scientist 系列的獨立評估(arXiv:2502.14297)揭露了殘酷的現實:
- 在測試的 12 個實驗中,5 個(42%)因程式碼錯誤而直接失敗
- 成功執行的實驗中,部分產生了邏輯謬誤或誤導性結論
- 文獻回顧品質低劣——系統將「微批次梯度下降」這種早在 1980 年代就成熟的技術標記為「新穎創意」
- 系統無法批判性地評估自身輸出結果的合理性
4. 分析局限性與潛在風險
技術層面的根本性缺陷
AI Scientist-v2 最深層的問題不是執行穩定性,而是缺乏真正的科學判斷力。它能生成在形式上符合論文格式的文字,但無法評估研究問題是否真正重要、實驗設計是否有概念上的缺陷、結論是否超出數據支持範圍。這些判斷需要的不只是語言能力,而是對特定領域數十年積累的直覺與洞察。
對學術生態系的系統性威脅
更令人擔憂的是規模效應。如果一篇論文只需 6-15 美元和幾小時,那麼有動機的行為者——無論是謀求績效指標的機構還是蓄意操縱科學輿論的組織——都能以極低成本生產海量「學術論文」。這對以下系統構成直接威脅:
- 同行評審:審稿人面對的論文量可能呈指數增長,且難以辨別 AI 生成的合理謬誤
- 文獻引用網絡:大量低品質但表面可信的論文污染後續研究的知識基礎
- 科研評鑑體系:以發表數量為核心指標的評鑑系統將面臨根本性危機
值得注意的是,SakanaAI 自行將那篇通過評審的論文撤回,理由是倫理和程序問題——這本身就說明他們清楚知道這項技術的邊界在哪裡。
著作權與學術誠信的灰色地帶
AI 生成論文的著作歸屬問題至今沒有共識。多數頂級學術期刊尚未建立成熟的 AI 披露機制,更遑論如何處理「AI 是共同作者」或「論文完全由 AI 撰寫」的情況。
5. 判斷產業影響與應用價值
短期來看,AI Scientist-v2 最有價值的應用場景不是「取代研究員」,而是:
- 假設生成與篩選:快速探索龐大的假設空間,幫助人類研究員識別值得深入的方向
- 實驗自動化:在明確定義的問題域中(如藥物分子篩選、材料特性預測)加速迭代速度
- 論文寫作輔助:協助整理實驗結果、生成初稿,但最終判斷仍需人類負責
中長期來看,這項技術將迫使整個學術社群重新定義「科學貢獻」的本質。如果 AI 能獨立完成技術性的實驗流程,人類科學家的不可替代性將集中在:問題的選擇與框架、倫理判斷、跨領域的創意連結,以及對社會意義的理解。
2026 年,隨著 AI 代理技術持續成熟,我們可以預期:第一批全程 AI 自主完成的工業應用研究(而非學術論文)將陸續出現在製藥、材料科學和半導體設計等領域。這些領域有精確的成功指標,降低了 AI 判斷失準的風險。
Friday 的觀點
AI Scientist-v2 通過同行評審,本質上暴露的不是 AI 多厲害,而是現行同行評審制度多脆弱——一個以形式符合度和文字流暢性為主要評判標準的系統,天然地對語言模型友善。這不是 AI 科研能力的勝利,這是評審標準的失敗預兆。
技術本身並不危險,危險的是速度——當 AI 生成論文的成本降至可以大規模濫用的程度,而學術界的規範框架還停留在「每篇論文都是人類嘔心瀝血之作」的假設上,兩者之間的落差將成為系統性風險的溫床。
SakanaAI 的誠實(主動撤稿、配合調查)讓人稍感安慰,但這場競賽最終的走向,取決於學術社群能否在「AI 輔助加速」和「AI 生成取代」之間劃出清晰且可執行的界線。
參考來源
- Yamada, Y., Lange, R.T., Lu, C., Hu, S., Lu, C., Foerster, J., Clune, J., & Ha, D. (2025). The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search. arXiv:2504.08066. https://arxiv.org/abs/2504.08066
- Evaluating Sakana's AI Scientist: Bold Claims, Mixed Results, and a Promising Future? arXiv:2502.14297. https://arxiv.org/abs/2502.14297
- GitHub Repository: https://github.com/SakanaAI/AI-Scientist-v2
Friday