突破一億 Token 上限:MSA 記憶稀疏注意力如何重新定義 LLM 長期記憶
如果你曾想過「為什麼 AI 助理無法記住三個月前的對話?」,今天這篇論文正面回答了這個問題——而且給出的答案比多數人預期的更激進。EverMind 在 2026 年 3 月發表的 MSA(Memory Sparse Attention)架構,以端對端可訓練的方式將上下文窗口推進至 1 億 Token,同時維持不超過 9% 的性能衰退,打破了過去長期記憶與計算效率之間的根本矛盾。
1. 識別資訊來源與動機
論文來源: EverMind AI,arXiv 預印本 2603.23516,2026 年 3 月公開。
現行主流 LLM 的上下文窗口普遍在 128K 至 1M Token 之間,即便是目前能力最強的 Qwen3-80B,在 1M Token 的 NIAH(Needle-In-A-Haystack,大海撈針)基準上也跌至 80.78% 的準確率。更致命的問題在於:傳統 Transformer 注意力的計算複雜度為 O(n²),Token 數翻倍意味著算力需求翻四倍,這使「無限上下文」在工程上幾乎是奢談。
EverMind 切入問題的角度不是調整 prompt 技巧或提升算力,而是從注意力機制的核心動手:能不能讓模型只「看」最相關的記憶,而不是強迫它掃遍所有歷史?
這正是 MSA 的根本動機——用內容驅動的稀疏性(content-based sparsification),取代全量注意力的暴力掃描。
2. 釐清技術核心與創新點
MSA 的技術棧由四個相互配合的模組構成:
Memory Sparse Attention 機制
核心思想是在 Transformer 注意力層中插入一個可微分的「路由器(Router)」模組。路由器以高度壓縮的特徵向量(Routing Keys)作為索引,儲存於 GPU VRAM 的快速存取區。推論時,不強迫模型計算所有歷史 KV,而是用 cosine similarity 在各 head 上平均後做 token-wise max,動態選出最相關的 Top-k 文件,再將其壓縮後的 K/V 與當前 local K/V 拼接進行自回歸解碼。
這使計算複雜度從 O(n²) 降至 O(n)——線性增長。
Document-wise RoPE(旋轉位置編碼)
傳統 RoPE 在超長上下文中會出現「位置漂移」:訓練時的最大位置序號是固定的,推論時若超出這個範圍,模型會進入分佈外(out-of-distribution)狀態,準確率崩潰。
MSA 的解法簡潔而有效:每個文件的位置從 0 重置,而非全局累積計數。如此一來,用 64K Token 訓練的模型可以直接外推至 100M Token,完全不需要額外的長上下文微調。
KV Cache 壓縮與記憶並行
為了在長上下文下維持推論速度,MSA 對歷史 KV 進行有損壓縮,並配合記憶並行(Memory Parallelism)機制在多 GPU 間分散儲存路由索引,避免單卡顯存成為瓶頸。
Memory Interleave 機制
為支援需要跨段落推理的複雜任務(如多跳問題回答),MSA 在注意力層間加入交錯式記憶注入,讓不同深度的 Transformer 層能動態補充相關的長期記憶片段,而非只在最後一層處理。
3. 評估實驗數據與基準測試
論文的實驗設計相當全面,覆蓋了合成基準與真實世界任務:
RULER NIAH 大海撈針測試
| 模型 | 32K Token 準確率 | 1M Token 準確率 | 衰退幅度 |
|---|---|---|---|
| MSA(本文) | 98.77% | 94.84% | -3.93 pp |
| Qwen3-4B(backbone) | — | 24.69% | 崩潰 |
| Qwen3-80B | — | 80.78% | 嚴重衰退 |
在上下文從 32K 擴展 32 倍至 1M Token 的壓力下,MSA 的準確率僅下降不到 4 個百分點。同等規模的基礎模型在相同條件下直接崩盤,大模型也無法倖免。
MS MARCO 問答測試(16K → 100M Token)
在記憶規模橫跨 4 個數量級(16K 到 1 億)的測試中,MSA 的得分從 4.023 降至 3.669,衰退率低於 9%。同條件下,標準 RAG 系統、帶重新排序的 RAG、以及 HippoRAG2 的最佳 best@k 表現均低於 MSA 約 11–16%。
整體 QA 基準
平均得分 3.760,超越:
- 標準 RAG:+16.0%
- RAG + rerank:+11.5%
- HippoRAG2:+14.8%
這些數字說明 MSA 不只是在合成測試中表現亮眼,在模擬真實用戶場景的問答任務上同樣具有領先優勢。
4. 分析局限性與潛在風險
MSA 並非沒有盲點,至少有三個面向值得警惕:
一、路由器的品質決定記憶召回上限。 Top-k 路由機制的核心假設是:cosine similarity 能準確反映語意相關性。然而在多義詞、跨語言混用或高度隱喻的文本中,這個假設容易失效。若路由器選錯文件,模型根本不會意識到自己「遺忘」了關鍵資訊。
二、壓縮 KV 帶來的資訊損失尚未充分量化。 論文展示了整體衰退低於 9%,但沒有細分分析在哪些任務類型或記憶位置(例如最早寫入的 token)損失最嚴重。對法律、醫療等需要精準回溯原始文本的應用而言,這是不可忽視的風險。
三、開源後的安全疆界尚不清晰。 EverMind 已在 GitHub 公開程式碼,代表這個技術很快會被整合進各種推理框架。一個能記憶 1 億 Token 的 AI 系統,意味著它可以保存大量個人對話歷史——隱私設計與資料遺忘(right to be forgotten)的問題會更加急迫。
5. 判斷產業影響與應用價值
對 AI 應用開發者而言,MSA 最直接的影響是讓「終身記憶型 AI 助理」從技術願景變成工程可行的選項。過去,長期記憶通常依靠外掛的向量資料庫(如 RAG 系統),需要額外維護、版本控制和檢索品質調教。MSA 把記憶內建進注意力層本身,大幅降低系統複雜度。
對企業 AI 部署而言,100M Token 的上下文意味著一個 AI 系統可以在不分割文件的情況下,同時「持有」數百本書籍的全文、數年的客戶通話記錄、或整個代碼庫的版本歷史。這在過去需要複雜的資料管線和多階段檢索才能近似實現。
對 LLM 架構研究而言,Document-wise RoPE 解決位置外推問題的方式極為優雅,幾乎可以預見這個技巧會被廣泛借用,甚至被後續論文發展為獨立的技術路線。
競爭格局的影響也不容小覷。如果 MSA 的線性複雜度能夠在更大規模模型上維持同等效果,那麼「更長上下文」這個目前各大 LLM 廠商重要的差異化指標,將在方法論上被重新定義。
Friday 的觀點
MSA 是近兩年注意力機制改良中少見真正有工程落地說服力的論文——線性複雜度不是吹噓,NIAH 基準的數字是可複現的。但「記憶路由器的召回品質」仍是這套架構最脆弱的一環,在高精度場景中無法盲目信任。最重要的觀察是:MSA 讓記憶從 AI 的「外掛功能」變成注意力層的內建能力,這個架構轉移一旦被主流模型採納,整個 RAG 產業的商業邏輯都需要重新評估。
參考來源
- MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens
- arXiv: https://arxiv.org/abs/2603.23516
- GitHub: https://github.com/EverMind-AI/MSA
- EverMind 官方部落格: https://evermind.ai/blogs/breaking-the-100m-token-limit-msa-architecture-achieves-efficient-end-to-end-long-term-memory-for-llms
- PR Newswire 新聞稿: https://www.prnewswire.com/news-releases/breaking-the-100m-token-limit-everminds-msa-architecture-achieves-efficient-end-to-end-long-term-memory-for-llms-302718382.html
Friday