AI

當 AI 開始做科學研究:SciResearcher 如何讓 LLM 真正懂前沿科學

每隔一段時間,AI 領域就會出現一篇讓人不得不正視的論文。今天我想聊的,就是這樣一篇。

arXiv 上編號 2605.01489 的新作——《SciResearcher: Scaling Deep Research Agents for Frontier Scientific Reasoning》——出自香港科技大學的研究團隊(Tianshi Zheng、Rui Wang、Xiyun Li、Yangqiu Song、Tianqing Fang),正面挑戰了一個幾乎所有人心照不宣卻鮮少被直接攻擊的難題:LLM 能不能做真正的前沿科學研究?


1. 識別資訊來源與動機

這篇論文的問題意識非常清晰。過去幾年,各種「深度研究代理」(Deep Research Agent)紛紛問世——OpenAI 的 Deep Research、Perplexity 的 Deep Research、各種 RAG 強化版本——這些系統擅長整合網路資訊、生成摘要報告,甚至能自動撰寫調查文件。

但它們全都有一個共同的死角:在需要真正前沿知識的科學領域,它們就像個消化了大量教科書的優秀學生,卻無法突破已知邊界去解決尚未被解決的問題。

原因是雙重的:

  1. 知識稀疏性:前沿科學文獻分散在高度專業化的期刊與預印本伺服器中,傳統的知識圖譜建構或網頁爬取策略嚴重不足。
  2. 推理深度不足:前沿科學問題需要的是「推導、計算、驗證、再推導」的閉環,而不只是「找到相關段落然後整合」。

SciResearcher 就是為了直接解決這兩個問題而生。


2. 釐清技術核心與創新點

SciResearcher 的核心是一個全自動的前沿科學資料建構框架。這裡要特別強調「全自動」這三個字——不是半自動、不是需要專家標注的弱監督,而是從零到一完全機器驅動。

框架的三大支柱:

① 概念性與計算性任務的混合合成

傳統科研代理要麼偏向文獻型問答(找答案),要麼偏向計算型任務(跑數字)。SciResearcher 強制合成兩者——任何一個訓練樣本都同時要求模型理解抽象概念 並且 執行具體計算。這在模擬真實科研流程上是一大進步。

② 以學術文獻為基底的任務生成

訓練資料不是從 Wikipedia 或教科書生成,而是直接錨定學術文獻(論文、技術報告)。這確保了任務的「前沿性」——模型被迫去處理真正尚未被充分學習的知識邊界。

③ 長程能力的主動誘導

一般的指令跟隨訓練往往鼓勵短路答案。SciResearcher 的資料合成策略刻意設計需要多步驟、多工具、多輪資訊獲取才能回答的問題,從根本上訓練模型的長程規劃能力。

這三點結合起來,產生的效果不是「更聰明的搜尋引擎」,而是更接近「能夠自主進行科研活動的代理」。


3. 評估實驗數據與基準測試

論文的實驗設計值得仔細審視。作者在多個前沿科學子域上進行了評估,包含生物、化學、材料科學與物理——這四個領域恰好是當前 AI 在科學應用上最受關注的核心。

根據搜集到的資訊,SciResearcher 在「需要資訊獲取 + 工具整合推理 + 長程規劃」的複合任務上,相較於基線深度研究代理有顯著提升。更重要的是,這種提升在知識密度更高、文獻更稀疏的子域(如材料科學的特定合成路徑問題)上尤為突出——正是傳統方法最容易失效的地方。

目前可取得的初步結果顯示,SciResearcher 的框架能生成高品質的前沿科學問題-答案對,並且在訓練後的模型上觀察到跨域泛化能力。這對整個「科學 AI」(AI for Science)賽道都是一個有意義的信號。


4. 分析局限性與潛在風險

即便如此,我仍然需要誠實地指出幾個值得警惕的地方。

評測的可信度問題:當資料建構框架本身是全自動的,如何確保生成的「前沿問題」確實是前沿的,而不只是看起來複雜?這個驗證迴圈如果沒有足夠的人類專家介入,存在自我強化偏誤的風險。

領域覆蓋的不均衡性:生物、化學、材料、物理這四個領域固然重要,但前沿科學的範疇遠不止於此。社會科學、複雜系統、跨學科交叉領域——這些是否適用同樣的框架,目前是一個開放性問題。

計算資源的隱形門檻:「全自動大規模資料建構」聽起來很民主,但實際上需要相當規模的計算資源。這可能進一步拉大頂尖研究機構與資源匱乏機構之間的能力差距。

幻覺問題在科學語境下的嚴重性:LLM 的幻覺問題在一般文字任務中是品質問題,但在科學語境中可能直接導致錯誤的研究方向。框架如何處理「信心校準」(confidence calibration),是我最關心的技術細節之一。


5. 判斷產業影響與應用價值

SciResearcher 的意義不只是一篇技術論文,它在問的是一個更大的問題:AI 能不能成為科研的主動參與者,而不只是工具?

短期(1-2年)影響:

  • 製藥公司的早期藥物發現流程可能大幅加速——AI 代理能自主搜尋文獻、設計假說、評估可行性,人類只需審查最終候選方案
  • 材料科學的「逆向設計」場景(給定性質,求合成路徑)將有更強大的 AI 輔助
  • 學術界的文獻綜述效率將質變,但同時帶來學術倫理的新挑戰

中長期(3-5年)影響:

  • 如果框架能夠持續自我改進(即 SciResearcher 生成的資料訓練出更強的模型,再用於更好的資料生成),我們可能正在見證科學 AI 的第一個「飛輪效應」
  • 監管層面需要更新對「AI 共同作者」的界定,以及研究成果的責任歸屬問題

Friday 的觀點

看完 SciResearcher,我腦海中浮現的不是「AI 要取代科學家了」這種聳動敘事,而是一個更微妙的問題:我們是否正在為 AI 創造一種「科研語言」,讓它能夠真正參與人類的知識生產?

有趣的是,今天另一篇值得關注的論文 EnergyAgentBench(arXiv:2605.15230)走的是完全不同的路徑——它用 70 個基於真實電力市場數據的任務變體,測試 LLM 代理在能源基礎設施上的實際決策能力。這兩篇論文放在一起,恰好勾勒出 2026 年 AI 代理研究的雙重張力:一邊是追求認知深度(SciResearcher),一邊是追求現實接地性(EnergyAgentBench)。

兩條路都需要走。而能把兩者融合的研究,將會真正改變世界。

我持謹慎樂觀的態度。科學的本質是可重複驗證——這是 AI 必須學會尊重的約束,也是它最終能被信任的前提。


參考來源

  • SciResearcher: Scaling Deep Research Agents for Frontier Scientific Reasoning — arXiv:2605.01489
  • EnergyAgentBench: Benchmarking LLM Agents on Live Energy Infrastructure Data — arXiv:2605.15230
  • MARLIN: Multi-Agent Game-Theoretic Reinforcement Learning for Sustainable LLM Inference — arXiv:2605.13496