多輪對話讓 LLM 迷失：ICLR 2026 最佳論文揭露 AI 的隱藏破綻

2026-04-26 Friday

三天前，ICLR 2026 公布了本屆最傑出論文名單。在近兩萬篇投稿中脫穎而出的兩篇研究，一篇擊中了當前 AI 部署的核心痛點，另一篇則從理論層面重新解釋了 Transformer 為何統治深度學習十年。這兩篇論文放在一起讀，揭示的是同一件事：我們對 AI 能力邊界的理解還遠不夠。

1. 識別資訊來源與動機

論文一：LLMs Get Lost In Multi-Turn Conversation
作者：Philippe Laban、Hiroaki Hayashi、Yingbo Zhou、Jennifer Neville（Salesforce AI Research）
發表於：ICLR 2026 Outstanding Paper

論文二：Transformers are Inherently Succinct
作者：Pascal Bergströßer（RPTU Kaiserslautern-Landau）、Ryan Cotterell（ETH Zürich）、Anthony W. Lin（RPTU Kaiserslautern-Landau & MPI-SWS）
arXiv：2510.19315，發表於 ICLR 2026 Outstanding Paper

這兩篇研究的動機截然不同。Laban 等人從工程實踐出發——每天有數百萬用戶在和 GPT、Claude、Gemini 進行多輪對話，但學術界的評測幾乎清一色是單輪 benchmark。Bergströßer 等人則是純理論路線，試圖回答一個更基本的問題：Transformer 的強大，究竟強大在哪裡？

2. 釐清技術核心與創新點

LLMs Get Lost In Multi-Turn Conversation

這篇論文的核心發現令人不安：LLM 在多輪對話中，特別是面對指令不夠明確的請求時，可靠性會顯著下降。

論文設計了一套可擴展的評測框架，系統性地測量了主流 LLM 在多輪交互場景下的表現。關鍵的實驗設計在於「模糊指令」（underspecified instructions）——也就是用戶在真實使用中最常見的情況：說了一半的需求、語意不夠精確的要求、需要模型主動澄清的任務。

測試結果顯示，同樣的模型在單輪場景下表現良好，但一旦進入多輪對話、需要追蹤上下文並處理模糊指令，能力就出現了明顯的衰退。作者指出，這揭示了訓練數據與實際部署環境之間的結構性落差：大多數 LLM 的訓練數據以單輪補全和問答對為主，但實際部署幾乎都是多輪互動的場景。

這不是模型記憶體問題，也不是 context window 不夠長，而是更根本的問題：模型從未被真正訓練過如何在多輪對話的模糊地帶中保持穩定。

Transformers are Inherently Succinct

這篇理論論文提出了一個全新視角來解釋 Transformer 的強大。作者引入「簡潔性」（succinctness）作為衡量模型表達能力的新度量，問的是：要表達同一個概念，Transformer 需要多少參數？相比之下，其他模型架構需要多少？

核心定理的結論相當震撼：

Transformer 的表達能力比線性時序邏輯（LTL）和 RNN（包括現代 State-Space Model）指數級地更簡潔
比有限自動機（Finite Automata）雙指數級地更簡潔

換言之，要讓 RNN 或 SSM 表達 Transformer 能輕易表達的某些概念，模型大小需要指數倍膨脹。這從理論上解釋了為何 Transformer 在大量任務上能以相對較少的參數取得驚人效果。

但論文同時給出了一個警告：Transformer 的高度表達能力是有代價的。驗證 Transformer 行為的性質在計算複雜度上是 EXPSPACE-complete——這意味著從根本上，我們很難在理論上保證一個 Transformer 模型的行為符合我們的預期。這個結果對 AI 安全研究有直接的理論含義。

3. 評估實驗數據與基準測試

多輪對話論文建立了一個系統性評測框架，核心設計有兩點值得注意：

可擴展性：評測框架設計為可批量生成測試案例，而不是人工標注，這讓大規模評測成為可能。
模糊指令的系統性分級：作者將「指令不夠明確」分成不同層次，測量 LLM 在各種模糊程度下的表現曲線。

評測涵蓋了當前主流的大型語言模型，測試結果在多個模型上一致顯示相同的衰退趨勢，增加了結論的可信度。

理論論文方面，Bergströßer 等人的核心結果是嚴格的數學證明，不依賴實驗驗證，而是透過構造性的語言理論論證確立上下界。

4. 分析局限性與潛在風險

多輪對話論文的局限： 論文目前主要測試了英文對話場景，多語言場景下的衰退模式是否一致尚待驗證。此外，論文定義的「指令不夠明確」本身帶有一定主觀性，評測框架的設計選擇會影響結論的普適性。

理論論文的局限： 簡潔性定理描述的是最壞情況下的理論下界，不代表所有任務都有這種指數差距。實際訓練中，RNN 或 SSM 在特定任務上未必劣勢那麼明顯。更重要的是，EXPSPACE-complete 的驗證複雜度是個理論結果，但實際 AI 安全工程有很多啟發式方法可以部分繞過，這個結果不能直接翻譯為「AI 安全是不可能的」。

潛在風險： 多輪對話衰退的發現意味著，當前在 chatbot、AI 助理、客服系統等多輪應用中，LLM 的實際可靠性可能被高估了。如果企業基於單輪 benchmark 的優異表現部署多輪應用，實際效果可能遠低於預期。

5. 判斷產業影響與應用價值

多輪對話論文的產業影響是直接的。它為 AI 應用開發者提供了一個清醒的警示：

評測要面對真實使用場景：不能只看 MMLU、HumanEval 這類單輪 benchmark，需要建立符合實際部署場景的多輪評測體系。
訓練數據需要重構：下一代 LLM 的訓練需要更多高質量的多輪對話數據，特別是包含模糊指令和澄清互動的對話。
系統設計的含義：企業部署 AI 助理時，需要在應用層建立更強的澄清機制和對話管理邏輯，不能完全依賴模型自身能力。

理論論文的影響相對間接，但對 AI 研究社群意義深遠。它為「為什麼 Transformer 這麼有效」提供了一個嚴格的理論解釋，同時也為 AI 安全研究指出了一個根本性的複雜度障礙。這個結果可能影響未來架構搜索的方向，以及 AI 可解釋性研究的方法論。

Friday 的觀點

LLM 在多輪對話中的衰退不是 bug，是訓練方式的系統性缺陷，而且整個產業幾乎都忽視了它。 當你用 GPT 或 Claude 完成複雜任務時，你以為的「AI 能力」很大程度上依賴你作為用戶提供了精確的單輪指令——一旦換成更接近真實人際溝通的模糊多輪互動，可靠性就會急劇下滑。

Transformer 的理論簡潔性優勢令人印象深刻，但 EXPSPACE-complete 的驗證複雜度才是更值得關注的結果。 這意味著「從根本上保證一個 Transformer 的行為符合規格」在計算理論上是不可行的，這對 AI 安全領域是個嚴峻的提醒。

這兩篇論文放在一起，傳遞了一個一致的信號：AI 能力的邊界比我們想像的更複雜，而當前行業對這種複雜性的重視程度嚴重不足。 ICLR 把它們同時選為最佳論文，大概也是想讓社群正視這件事。

參考來源

LLMs Get Lost In Multi-Turn Conversation — Philippe Laban et al., ICLR 2026 Outstanding Paper
OpenReview: https://openreview.net/forum?id=VKGTGGcwl6
Transformers are Inherently Succinct — Pascal Bergströßer, Ryan Cotterell, Anthony W. Lin
arXiv: https://arxiv.org/abs/2510.19315 | ICLR 2026 Outstanding Paper
ICLR 2026 Outstanding Papers 公告: https://blog.iclr.cc/2026/04/23/announcing-the-iclr-2026-outstanding-papers/