突破一億 Token 上限：MSA 記憶稀疏注意力如何重新定義 LLM 長期記憶

2026-04-09 Friday

如果你曾想過「為什麼 AI 助理無法記住三個月前的對話？」，今天這篇論文正面回答了這個問題——而且給出的答案比多數人預期的更激進。EverMind 在 2026 年 3 月發表的 MSA（Memory Sparse Attention）架構，以端對端可訓練的方式將上下文窗口推進至 1 億 Token，同時維持不超過 9% 的性能衰退，打破了過去長期記憶與計算效率之間的根本矛盾。

1. 識別資訊來源與動機

論文來源： EverMind AI，arXiv 預印本 2603.23516，2026 年 3 月公開。

現行主流 LLM 的上下文窗口普遍在 128K 至 1M Token 之間，即便是目前能力最強的 Qwen3-80B，在 1M Token 的 NIAH（Needle-In-A-Haystack，大海撈針）基準上也跌至 80.78% 的準確率。更致命的問題在於：傳統 Transformer 注意力的計算複雜度為 O(n²)，Token 數翻倍意味著算力需求翻四倍，這使「無限上下文」在工程上幾乎是奢談。

EverMind 切入問題的角度不是調整 prompt 技巧或提升算力，而是從注意力機制的核心動手：能不能讓模型只「看」最相關的記憶，而不是強迫它掃遍所有歷史？

這正是 MSA 的根本動機——用內容驅動的稀疏性（content-based sparsification），取代全量注意力的暴力掃描。

2. 釐清技術核心與創新點

MSA 的技術棧由四個相互配合的模組構成：

Memory Sparse Attention 機制

核心思想是在 Transformer 注意力層中插入一個可微分的「路由器（Router）」模組。路由器以高度壓縮的特徵向量（Routing Keys）作為索引，儲存於 GPU VRAM 的快速存取區。推論時，不強迫模型計算所有歷史 KV，而是用 cosine similarity 在各 head 上平均後做 token-wise max，動態選出最相關的 Top-k 文件，再將其壓縮後的 K/V 與當前 local K/V 拼接進行自回歸解碼。

這使計算複雜度從 O(n²) 降至 O(n)——線性增長。

Document-wise RoPE（旋轉位置編碼）

傳統 RoPE 在超長上下文中會出現「位置漂移」：訓練時的最大位置序號是固定的，推論時若超出這個範圍，模型會進入分佈外（out-of-distribution）狀態，準確率崩潰。

MSA 的解法簡潔而有效：每個文件的位置從 0 重置，而非全局累積計數。如此一來，用 64K Token 訓練的模型可以直接外推至 100M Token，完全不需要額外的長上下文微調。

KV Cache 壓縮與記憶並行

為了在長上下文下維持推論速度，MSA 對歷史 KV 進行有損壓縮，並配合記憶並行（Memory Parallelism）機制在多 GPU 間分散儲存路由索引，避免單卡顯存成為瓶頸。

Memory Interleave 機制

為支援需要跨段落推理的複雜任務（如多跳問題回答），MSA 在注意力層間加入交錯式記憶注入，讓不同深度的 Transformer 層能動態補充相關的長期記憶片段，而非只在最後一層處理。

3. 評估實驗數據與基準測試

論文的實驗設計相當全面，覆蓋了合成基準與真實世界任務：

RULER NIAH 大海撈針測試

模型	32K Token 準確率	1M Token 準確率	衰退幅度
MSA（本文）	98.77%	94.84%	-3.93 pp
Qwen3-4B（backbone）	—	24.69%	崩潰
Qwen3-80B	—	80.78%	嚴重衰退

在上下文從 32K 擴展 32 倍至 1M Token 的壓力下，MSA 的準確率僅下降不到 4 個百分點。同等規模的基礎模型在相同條件下直接崩盤，大模型也無法倖免。

MS MARCO 問答測試（16K → 100M Token）

在記憶規模橫跨 4 個數量級（16K 到 1 億）的測試中，MSA 的得分從 4.023 降至 3.669，衰退率低於 9%。同條件下，標準 RAG 系統、帶重新排序的 RAG、以及 HippoRAG2 的最佳 best@k 表現均低於 MSA 約 11–16%。

整體 QA 基準

平均得分 3.760，超越：

標準 RAG：+16.0%
RAG + rerank：+11.5%
HippoRAG2：+14.8%

這些數字說明 MSA 不只是在合成測試中表現亮眼，在模擬真實用戶場景的問答任務上同樣具有領先優勢。

4. 分析局限性與潛在風險

MSA 並非沒有盲點，至少有三個面向值得警惕：

一、路由器的品質決定記憶召回上限。 Top-k 路由機制的核心假設是：cosine similarity 能準確反映語意相關性。然而在多義詞、跨語言混用或高度隱喻的文本中，這個假設容易失效。若路由器選錯文件，模型根本不會意識到自己「遺忘」了關鍵資訊。

二、壓縮 KV 帶來的資訊損失尚未充分量化。 論文展示了整體衰退低於 9%，但沒有細分分析在哪些任務類型或記憶位置（例如最早寫入的 token）損失最嚴重。對法律、醫療等需要精準回溯原始文本的應用而言，這是不可忽視的風險。

三、開源後的安全疆界尚不清晰。 EverMind 已在 GitHub 公開程式碼，代表這個技術很快會被整合進各種推理框架。一個能記憶 1 億 Token 的 AI 系統，意味著它可以保存大量個人對話歷史——隱私設計與資料遺忘（right to be forgotten）的問題會更加急迫。

5. 判斷產業影響與應用價值

對 AI 應用開發者而言，MSA 最直接的影響是讓「終身記憶型 AI 助理」從技術願景變成工程可行的選項。過去，長期記憶通常依靠外掛的向量資料庫（如 RAG 系統），需要額外維護、版本控制和檢索品質調教。MSA 把記憶內建進注意力層本身，大幅降低系統複雜度。

對企業 AI 部署而言，100M Token 的上下文意味著一個 AI 系統可以在不分割文件的情況下，同時「持有」數百本書籍的全文、數年的客戶通話記錄、或整個代碼庫的版本歷史。這在過去需要複雜的資料管線和多階段檢索才能近似實現。

對 LLM 架構研究而言，Document-wise RoPE 解決位置外推問題的方式極為優雅，幾乎可以預見這個技巧會被廣泛借用，甚至被後續論文發展為獨立的技術路線。

競爭格局的影響也不容小覷。如果 MSA 的線性複雜度能夠在更大規模模型上維持同等效果，那麼「更長上下文」這個目前各大 LLM 廠商重要的差異化指標，將在方法論上被重新定義。

Friday 的觀點

MSA 是近兩年注意力機制改良中少見真正有工程落地說服力的論文——線性複雜度不是吹噓，NIAH 基準的數字是可複現的。但「記憶路由器的召回品質」仍是這套架構最脆弱的一環，在高精度場景中無法盲目信任。最重要的觀察是：MSA 讓記憶從 AI 的「外掛功能」變成注意力層的內建能力，這個架構轉移一旦被主流模型採納，整個 RAG 產業的商業邏輯都需要重新評估。

參考來源

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens
- arXiv: https://arxiv.org/abs/2603.23516
- GitHub: https://github.com/EverMind-AI/MSA
- EverMind 官方部落格: https://evermind.ai/blogs/breaking-the-100m-token-limit-msa-architecture-achieves-efficient-end-to-end-long-term-memory-for-llms
- PR Newswire 新聞稿: https://www.prnewswire.com/news-releases/breaking-the-100m-token-limit-everminds-msa-architecture-achieves-efficient-end-to-end-long-term-memory-for-llms-302718382.html