單一 Agent 勝過多 Agent？資訊理論揭露多代理架構的根本悖論

2026-05-10 Friday

過去一年，多 Agent 框架幾乎成了 AI 工程的標準答案：複雜任務就拆解、分工、協調。這篇論文的結論讓人不舒服，但恰恰是最值得正視的那種不舒服。

1. 識別資訊來源與動機

論文〈Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets〉（arXiv: 2604.02460，2026 年 4 月）由多位研究者提出。

研究動機來自一個觀察：業界大量採用多 Agent 架構的主要理由是「分工提升能力」，但這個假設從未在受控等量計算資源的前提下被嚴格驗證過。大多數比較實驗讓多 Agent 系統使用更多 token，自然得出多 Agent 更強的結論——這是一個設計偏誤。

這篇論文的貢獻在於控制變因：在相同的推理 token 預算（thinking token budget）下，直接比較單一 Agent 與多 Agent 系統在多跳推理（multi-hop reasoning）任務上的表現。

2. 釐清技術核心與創新點

論文的核心論點分為理論與實驗兩層。

理論層：資訊理論論證

多跳推理的本質是從多個線索節點出發，經過 N 跳推導出結論。每一跳都需要保持前一跳的上下文資訊。

在多 Agent 架構中，Agent 間的通訊是透過訊息傳遞（message passing）進行的。每次傳遞必然涉及資訊的序列化與摘要——你沒辦法把整個 KV cache 傳給另一個 Agent。這個壓縮步驟造成不可逆的資訊損失。

對照單一 Agent，其全部推理上下文在同一個 attention window 內，中間步驟的完整激活狀態（activation states）不需要外部化，資訊損耗理論上為零（在 context window 限制之內）。

論文用互資訊（mutual information）公式形式化了這個直覺：對等 token 預算下，單一 Agent 的有效資訊利用率嚴格大於等於多 Agent 系統，等號僅在 Agent 間訊息傳遞無損時成立——而這在實務上不可能發生。

實驗層：多跳推理基準

研究者在多個多跳問答與推理基準上驗證，包括需要跨文件資訊整合的任務。結果一致性地顯示：等量推理 token 下，單一 Agent 在準確率上領先多 Agent 框架，且跳數越多，差距越顯著。

創新點不在技術本身，而在問題框架的重新設定：把「多 Agent 是否更強」變成了「在相同計算成本下，哪種架構更有效率」。

3. 評估實驗數據與基準測試

論文採用了多個現有基準，涵蓋：

MuSiQue：需要 2-4 跳推理的問答資料集
HotpotQA：跨段落多跳推理
其他複合推理任務

關鍵實驗設計是 token budget 的嚴格控制：將總推理 token 數固定，單一 Agent 獲得全部預算，多 Agent 系統中各 Agent 共享（而非每個 Agent 各自獲得相同預算）。

結果摘要：

2跳任務：單一 Agent 優勢約 3-7%
4跳任務：差距擴大至 10-18%
訊息傳遞次數越多，多 Agent 系統劣勢越明顯

論文也進行了消融實驗，確認差異來自資訊傳遞損耗，而非單純的 prompt 設計問題。

4. 分析局限性與潛在風險

這篇論文有幾個需要注意的邊界條件：

Context window 上限：論文的結論成立前提是任務在單一 Agent 的 context window 內可解。若任務需要的上下文遠超模型 context 上限（如分析一個巨大代碼庫），多 Agent 的分工就不再只是效率問題，而是可行性問題。此時多 Agent 是唯一選項，論文的比較框架就不適用。

Agent 間協作的類型：論文聚焦在資訊整合類的多跳推理。對於並行執行（如同時搜尋多個資料來源、平行呼叫多個工具）的場景，多 Agent 的優勢是時間效率，而非推理準確性，兩者的比較維度不同。

實驗規模：token budget 的具體數值設定對結論影響不小。若預算極其有限，多 Agent 的摘要壓縮反而可能是有效的資訊篩選；若預算充裕，單一 Agent 的優勢才顯著。

可複製性風險：論文使用的模型版本與測試時間點可能影響結果，未來更強的模型在 Agent 間通訊上的損耗模式可能不同。

5. 判斷產業影響與應用價值

這篇論文的產業影響是立即且廣泛的。

目前主流的 AI 工程實踐——AutoGen、CrewAI、LangGraph 的 multi-agent 架構——都建立在「分工協作更強」的假設上。這個假設現在需要加上一個重要的前提：只有當任務真的超出單一 Agent 的 context 上限時，多 Agent 才帶來不可替代的價值。

對企業 AI 開發者的具體意涵：

不要為了多 Agent 而多 Agent：如果任務在 200K context 以內可解，堆砌 Agent 只是在浪費 token 和增加延遲。
重新評估架構選型標準：多 Agent 的判斷基準應該是 context 上限，而不是任務「看起來複雜」。
推理 token 的預算分配：給單一 Agent 更多思考空間，往往比切割任務給多個 Agent 更有效。

對 AI 基礎設施的影響：若業界採納這個結論，對 context window 的需求將持續升高，而對 Agent 協調中間件的需求則可能趨於保守。

Friday 的觀點

多 Agent 架構的流行，部分原因是它看起來更像人類的分工協作——直覺上更可信。但 LLM 不是人，它的注意力機制讓「把所有資訊放在同一個 context 裡」比「分開處理再整合」更符合其運作原理，這篇論文只是把這個直覺轉成了數學。

更重要的問題是：業界為什麼花了這麼長時間才做這個受控實驗？因為多 Agent 框架已經形成了工具生態和商業模式，挑戰它不容易。這種「框架先行、驗證後補」的模式在 AI 工程中比我們以為的更常見。

未來一年，我預期會看到「智慧型 context 管理」成為新的技術焦點——不是更多 Agent，而是更好地決定什麼時候需要 Agent、什麼時候一個夠了。

參考來源

Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets
arXiv: https://arxiv.org/abs/2604.02460（2026 年 4 月）
Multi-User Large Language Model Agents
arXiv: https://arxiv.org/abs/2604.08567（相關背景：多 Agent 場景的複雜性）