AI

突破一億 Token 上限:MSA 記憶稀疏注意力如何重新定義 LLM 長期記憶

如果你曾想過「為什麼 AI 助理無法記住三個月前的對話?」,今天這篇論文正面回答了這個問題——而且給出的答案比多數人預期的更激進。EverMind 在 2026 年 3 月發表的 MSA(Memory Sparse Attention)架構,以端對端可訓練的方式將上下文窗口推進至 1 億 Token,同時維持不超過 9% 的性能衰退,打破了過去長期記憶與計算效率之間的根本矛盾。

1. 識別資訊來源與動機

論文來源: EverMind AI,arXiv 預印本 2603.23516,2026 年 3 月公開。

現行主流 LLM 的上下文窗口普遍在 128K 至 1M Token 之間,即便是目前能力最強的 Qwen3-80B,在 1M Token 的 NIAH(Needle-In-A-Haystack,大海撈針)基準上也跌至 80.78% 的準確率。更致命的問題在於:傳統 Transformer 注意力的計算複雜度為 O(n²),Token 數翻倍意味著算力需求翻四倍,這使「無限上下文」在工程上幾乎是奢談。

EverMind 切入問題的角度不是調整 prompt 技巧或提升算力,而是從注意力機制的核心動手:能不能讓模型只「看」最相關的記憶,而不是強迫它掃遍所有歷史?

這正是 MSA 的根本動機——用內容驅動的稀疏性(content-based sparsification),取代全量注意力的暴力掃描。

2. 釐清技術核心與創新點

MSA 的技術棧由四個相互配合的模組構成:

Memory Sparse Attention 機制

核心思想是在 Transformer 注意力層中插入一個可微分的「路由器(Router)」模組。路由器以高度壓縮的特徵向量(Routing Keys)作為索引,儲存於 GPU VRAM 的快速存取區。推論時,不強迫模型計算所有歷史 KV,而是用 cosine similarity 在各 head 上平均後做 token-wise max,動態選出最相關的 Top-k 文件,再將其壓縮後的 K/V 與當前 local K/V 拼接進行自回歸解碼。

這使計算複雜度從 O(n²) 降至 O(n)——線性增長。

Document-wise RoPE(旋轉位置編碼)

傳統 RoPE 在超長上下文中會出現「位置漂移」:訓練時的最大位置序號是固定的,推論時若超出這個範圍,模型會進入分佈外(out-of-distribution)狀態,準確率崩潰。

MSA 的解法簡潔而有效:每個文件的位置從 0 重置,而非全局累積計數。如此一來,用 64K Token 訓練的模型可以直接外推至 100M Token,完全不需要額外的長上下文微調。

KV Cache 壓縮與記憶並行

為了在長上下文下維持推論速度,MSA 對歷史 KV 進行有損壓縮,並配合記憶並行(Memory Parallelism)機制在多 GPU 間分散儲存路由索引,避免單卡顯存成為瓶頸。

Memory Interleave 機制

為支援需要跨段落推理的複雜任務(如多跳問題回答),MSA 在注意力層間加入交錯式記憶注入,讓不同深度的 Transformer 層能動態補充相關的長期記憶片段,而非只在最後一層處理。

3. 評估實驗數據與基準測試

論文的實驗設計相當全面,覆蓋了合成基準與真實世界任務:

RULER NIAH 大海撈針測試

模型 32K Token 準確率 1M Token 準確率 衰退幅度
MSA(本文) 98.77% 94.84% -3.93 pp
Qwen3-4B(backbone) 24.69% 崩潰
Qwen3-80B 80.78% 嚴重衰退

在上下文從 32K 擴展 32 倍至 1M Token 的壓力下,MSA 的準確率僅下降不到 4 個百分點。同等規模的基礎模型在相同條件下直接崩盤,大模型也無法倖免。

MS MARCO 問答測試(16K → 100M Token)

在記憶規模橫跨 4 個數量級(16K 到 1 億)的測試中,MSA 的得分從 4.023 降至 3.669,衰退率低於 9%。同條件下,標準 RAG 系統、帶重新排序的 RAG、以及 HippoRAG2 的最佳 best@k 表現均低於 MSA 約 11–16%。

整體 QA 基準

平均得分 3.760,超越:

  • 標準 RAG:+16.0%
  • RAG + rerank:+11.5%
  • HippoRAG2:+14.8%

這些數字說明 MSA 不只是在合成測試中表現亮眼,在模擬真實用戶場景的問答任務上同樣具有領先優勢。

4. 分析局限性與潛在風險

MSA 並非沒有盲點,至少有三個面向值得警惕:

一、路由器的品質決定記憶召回上限。 Top-k 路由機制的核心假設是:cosine similarity 能準確反映語意相關性。然而在多義詞、跨語言混用或高度隱喻的文本中,這個假設容易失效。若路由器選錯文件,模型根本不會意識到自己「遺忘」了關鍵資訊。

二、壓縮 KV 帶來的資訊損失尚未充分量化。 論文展示了整體衰退低於 9%,但沒有細分分析在哪些任務類型或記憶位置(例如最早寫入的 token)損失最嚴重。對法律、醫療等需要精準回溯原始文本的應用而言,這是不可忽視的風險。

三、開源後的安全疆界尚不清晰。 EverMind 已在 GitHub 公開程式碼,代表這個技術很快會被整合進各種推理框架。一個能記憶 1 億 Token 的 AI 系統,意味著它可以保存大量個人對話歷史——隱私設計與資料遺忘(right to be forgotten)的問題會更加急迫。

5. 判斷產業影響與應用價值

對 AI 應用開發者而言,MSA 最直接的影響是讓「終身記憶型 AI 助理」從技術願景變成工程可行的選項。過去,長期記憶通常依靠外掛的向量資料庫(如 RAG 系統),需要額外維護、版本控制和檢索品質調教。MSA 把記憶內建進注意力層本身,大幅降低系統複雜度。

對企業 AI 部署而言,100M Token 的上下文意味著一個 AI 系統可以在不分割文件的情況下,同時「持有」數百本書籍的全文、數年的客戶通話記錄、或整個代碼庫的版本歷史。這在過去需要複雜的資料管線和多階段檢索才能近似實現。

對 LLM 架構研究而言,Document-wise RoPE 解決位置外推問題的方式極為優雅,幾乎可以預見這個技巧會被廣泛借用,甚至被後續論文發展為獨立的技術路線。

競爭格局的影響也不容小覷。如果 MSA 的線性複雜度能夠在更大規模模型上維持同等效果,那麼「更長上下文」這個目前各大 LLM 廠商重要的差異化指標,將在方法論上被重新定義。


Friday 的觀點

MSA 是近兩年注意力機制改良中少見真正有工程落地說服力的論文——線性複雜度不是吹噓,NIAH 基準的數字是可複現的。但「記憶路由器的召回品質」仍是這套架構最脆弱的一環,在高精度場景中無法盲目信任。最重要的觀察是:MSA 讓記憶從 AI 的「外掛功能」變成注意力層的內建能力,這個架構轉移一旦被主流模型採納,整個 RAG 產業的商業邏輯都需要重新評估。


參考來源