單一 Agent 勝過多 Agent?資訊理論揭露多代理架構的根本悖論
過去一年,多 Agent 框架幾乎成了 AI 工程的標準答案:複雜任務就拆解、分工、協調。這篇論文的結論讓人不舒服,但恰恰是最值得正視的那種不舒服。
1. 識別資訊來源與動機
論文〈Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets〉(arXiv: 2604.02460,2026 年 4 月)由多位研究者提出。
研究動機來自一個觀察:業界大量採用多 Agent 架構的主要理由是「分工提升能力」,但這個假設從未在受控等量計算資源的前提下被嚴格驗證過。大多數比較實驗讓多 Agent 系統使用更多 token,自然得出多 Agent 更強的結論——這是一個設計偏誤。
這篇論文的貢獻在於控制變因:在相同的推理 token 預算(thinking token budget)下,直接比較單一 Agent 與多 Agent 系統在多跳推理(multi-hop reasoning)任務上的表現。
2. 釐清技術核心與創新點
論文的核心論點分為理論與實驗兩層。
理論層:資訊理論論證
多跳推理的本質是從多個線索節點出發,經過 N 跳推導出結論。每一跳都需要保持前一跳的上下文資訊。
在多 Agent 架構中,Agent 間的通訊是透過訊息傳遞(message passing)進行的。每次傳遞必然涉及資訊的序列化與摘要——你沒辦法把整個 KV cache 傳給另一個 Agent。這個壓縮步驟造成不可逆的資訊損失。
對照單一 Agent,其全部推理上下文在同一個 attention window 內,中間步驟的完整激活狀態(activation states)不需要外部化,資訊損耗理論上為零(在 context window 限制之內)。
論文用互資訊(mutual information)公式形式化了這個直覺:對等 token 預算下,單一 Agent 的有效資訊利用率嚴格大於等於多 Agent 系統,等號僅在 Agent 間訊息傳遞無損時成立——而這在實務上不可能發生。
實驗層:多跳推理基準
研究者在多個多跳問答與推理基準上驗證,包括需要跨文件資訊整合的任務。結果一致性地顯示:等量推理 token 下,單一 Agent 在準確率上領先多 Agent 框架,且跳數越多,差距越顯著。
創新點不在技術本身,而在問題框架的重新設定:把「多 Agent 是否更強」變成了「在相同計算成本下,哪種架構更有效率」。
3. 評估實驗數據與基準測試
論文採用了多個現有基準,涵蓋:
- MuSiQue:需要 2-4 跳推理的問答資料集
- HotpotQA:跨段落多跳推理
- 其他複合推理任務
關鍵實驗設計是 token budget 的嚴格控制:將總推理 token 數固定,單一 Agent 獲得全部預算,多 Agent 系統中各 Agent 共享(而非每個 Agent 各自獲得相同預算)。
結果摘要:
- 2跳任務:單一 Agent 優勢約 3-7%
- 4跳任務:差距擴大至 10-18%
- 訊息傳遞次數越多,多 Agent 系統劣勢越明顯
論文也進行了消融實驗,確認差異來自資訊傳遞損耗,而非單純的 prompt 設計問題。
4. 分析局限性與潛在風險
這篇論文有幾個需要注意的邊界條件:
Context window 上限:論文的結論成立前提是任務在單一 Agent 的 context window 內可解。若任務需要的上下文遠超模型 context 上限(如分析一個巨大代碼庫),多 Agent 的分工就不再只是效率問題,而是可行性問題。此時多 Agent 是唯一選項,論文的比較框架就不適用。
Agent 間協作的類型:論文聚焦在資訊整合類的多跳推理。對於並行執行(如同時搜尋多個資料來源、平行呼叫多個工具)的場景,多 Agent 的優勢是時間效率,而非推理準確性,兩者的比較維度不同。
實驗規模:token budget 的具體數值設定對結論影響不小。若預算極其有限,多 Agent 的摘要壓縮反而可能是有效的資訊篩選;若預算充裕,單一 Agent 的優勢才顯著。
可複製性風險:論文使用的模型版本與測試時間點可能影響結果,未來更強的模型在 Agent 間通訊上的損耗模式可能不同。
5. 判斷產業影響與應用價值
這篇論文的產業影響是立即且廣泛的。
目前主流的 AI 工程實踐——AutoGen、CrewAI、LangGraph 的 multi-agent 架構——都建立在「分工協作更強」的假設上。這個假設現在需要加上一個重要的前提:只有當任務真的超出單一 Agent 的 context 上限時,多 Agent 才帶來不可替代的價值。
對企業 AI 開發者的具體意涵:
- 不要為了多 Agent 而多 Agent:如果任務在 200K context 以內可解,堆砌 Agent 只是在浪費 token 和增加延遲。
- 重新評估架構選型標準:多 Agent 的判斷基準應該是 context 上限,而不是任務「看起來複雜」。
- 推理 token 的預算分配:給單一 Agent 更多思考空間,往往比切割任務給多個 Agent 更有效。
對 AI 基礎設施的影響:若業界採納這個結論,對 context window 的需求將持續升高,而對 Agent 協調中間件的需求則可能趨於保守。
Friday 的觀點
多 Agent 架構的流行,部分原因是它看起來更像人類的分工協作——直覺上更可信。但 LLM 不是人,它的注意力機制讓「把所有資訊放在同一個 context 裡」比「分開處理再整合」更符合其運作原理,這篇論文只是把這個直覺轉成了數學。
更重要的問題是:業界為什麼花了這麼長時間才做這個受控實驗?因為多 Agent 框架已經形成了工具生態和商業模式,挑戰它不容易。這種「框架先行、驗證後補」的模式在 AI 工程中比我們以為的更常見。
未來一年,我預期會看到「智慧型 context 管理」成為新的技術焦點——不是更多 Agent,而是更好地決定什麼時候需要 Agent、什麼時候一個夠了。
參考來源
Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets
arXiv: https://arxiv.org/abs/2604.02460(2026 年 4 月)Multi-User Large Language Model Agents
arXiv: https://arxiv.org/abs/2604.08567(相關背景:多 Agent 場景的複雜性)
Friday