Mamba 2 徹底解構:當狀態空間模型與 Attention 機制殊途同歸
1. 識別資訊來源與動機
論文資訊:「Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality」,作者為 Tri Dao(Flash Attention 系列第一作者)與 Albert Gu(Mamba 系列第一作者),2024 年 5 月發表,收錄於 ICML 2024。arXiv ID:2405.21060。
這篇論文的出現背景值得細說。2023 年底,Albert Gu 發表了 Mamba(2312.00752),以線性時間複雜度的選擇性狀態空間模型(Selective SSM)在語言建模任務上首次實質逼近 Transformer 的效能——這在學界引發了相當大的震動。然而 Mamba 的硬體效率仍有瓶頸:其遞迴核心難以充分利用 GPU 的矩陣運算單元,也不易進行多機張量並行訓練。
問題動機:Transformer 的自注意力機制(Self-Attention)具有 O(n²) 的序列長度複雜度,在處理長文件、高解析度影片、全基因組序列時,計算量呈平方爆炸。業界迫切需要一種既保有表達力、又能線性擴展的架構。Mamba 2 的核心問題意識是:SSM 與 Attention 看似截然不同的計算正規化,能否找到統一的數學基礎?
2. 釐清技術核心與創新點
Mamba 2 最核心的貢獻是提出了**結構化狀態空間對偶性(Structured State Space Duality,SSD)**框架,用一套優雅的線性代數語言,同時描述 SSM 和 Attention 的計算本質。
半可分矩陣(Semiseparable Matrix)統一視角
論文的數學洞見在於:序列模型的計算本質上是對一個 n×n 矩陣 M 與向量序列的相乘。當 M 是**下三角半可分矩陣(Lower Triangular 1-Semiseparable Matrix)**時,它天然對應到 causal SSM 的遞迴展開;當 M 是下三角矩陣、每個元素由 query-key 內積决定時,就是 causal Attention 的核心。兩者都是同一框架的特殊案例。
1-SS 模型與 Scalar Structure
Mamba 2 定義了 1-Semiseparable State Space(1-SS)模型,限制狀態矩陣 A 具備純量乘數形式(scalar-times-identity)。這個約束看似削弱表達力,實則是精心設計:它使得矩陣乘法可以完全分解為外積累加,對應到多頭注意力(Multi-Head Attention)的計算結構,也因此可以直接受益於 FlashAttention 風格的分塊 IO 優化。
Mamba 2 架構的實質改進
- 多頭結構(Multi-head SSM):類比 Multi-Head Attention,允許不同頭有獨立的狀態投影,使模型在相同參數量下具備更豐富的表示空間。狀態維度從 Mamba-1 的 16 擴展至 64-256。
- 狀態空間雙重核心:同一層可同時選擇以「遞迴模式」進行高效自回歸推理,或以「卷積/矩陣模式」進行高效並行訓練,兩種模式在數學上完全等價。
- 訓練效率:由於核心計算對應到分塊矩陣乘法,可充分利用 GPU 的 Tensor Core,實測訓練吞吐量相比 Mamba-1 提升 2 至 8 倍(取決於狀態大小與批次設置)。
- 張量並行友好性:多頭結構天然支援跨 GPU 的頭維度分割,解決了 Mamba-1 難以進行模型並行的痛點。
3. 評估實驗數據與基準測試
論文在多個尺度(130M 至 2.7B 參數)和資料集(The Pile、SlimPajama)上進行了系統性比較:
語言建模困惑度(Perplexity)
在 The Pile 資料集上,Mamba 2-2.7B 的驗證 perplexity 與同參數量的 Transformer(GPT-2 架構)及 Mamba-1 相當,甚至在若干 token budget 下略勝。這意味著 SSD 框架並沒有因為結構約束而犧牲模型品質。
訓練速度比較(序列長度 2K,batch 8)
| 模型 | 狀態維度 d_state | FLOP 效率相對 Mamba-1 |
|---|---|---|
| Mamba-1 | 16 | 1× (基準) |
| Mamba-2 (d=64) | 64 | 2.0× |
| Mamba-2 (d=256) | 256 | 5.5× |
更大的狀態空間帶來更強的記憶能力,同時藉由 SSD 核心維持高硬體效率——這是傳統 SSM 無法做到的。
混合架構(Hybrid Mamba-Attention)
論文驗證了在 Mamba-2 層中插入少量標準 Attention 層(約每 8 層加 1 層 Attention)可以提升任務精度,尤其在需要精確資訊檢索(Retrieval-Intensive Tasks)的場景。這種混合設計也在後來 Jamba、Zamba 等商業模型中得到廣泛採用。
合成任務(MAD Benchmarks)
在 Mechanic Associative Recall(MAD)等評測套件中,Mamba-2 在「多鍵關聯記憶」任務的得分顯著優於 Mamba-1,表明更大狀態空間確實提升了複雜推理能力。
4. 分析局限性與潛在風險
精確記憶檢索的天花板
即便使用混合架構,純 SSM 在「大海撈針(Needle-in-a-Haystack)」類任務上仍難以匹敵完整 Attention。這是 SSM 遞迴壓縮的根本性限制:資訊一旦壓縮進固定大小的隱藏狀態,就無法完美還原。對需要逐字檢索合約細節、法律條文的應用場景,這是不可忽視的缺口。
SSD 框架的適用範圍
SSD 對偶性嚴格要求 A 矩陣具備純量乘數結構(1-Semiseparable)。更一般的 SSM 變體(如全矩陣 A 的 S4 系列)並不在此框架之內,也就是說這個「殊途同歸」的結論是有條件的。研究者若想設計突破此限制的 SSM,就需要放棄 SSD 帶來的效率增益。
生態系統不成熟
截至 2024 年中,大多數主流框架(HuggingFace Transformers、PEFT、vLLM 等)對 Mamba 類模型的整合支援仍不完整,Pre-training recipe、對齊技術(RLHF/DPO for SSM)的最佳實踐也遠不如 Transformer 成熟。這使得實際落地成本較高。
訓練穩定性
部分研究者回報 Mamba-2 在較大批次或較長序列下出現訓練不穩定問題,懷疑與狀態初始化和梯度流動有關。官方尚未有系統性分析,屬於待解問題。
5. 判斷產業影響與應用價值
基因組學與長序列生物資訊
基因序列動輒數百萬至數十億 bp,Transformer 的二次方複雜度在此場景幾乎不可用。Mamba 系列已被 HyenaDNA、Caduceus 等基因組模型採用,Mamba-2 的效率提升讓訓練更長序列模型成為可能。
音頻與影片生成
原始音頻波形(44.1kHz)和長影片帖(30fps × 分鐘級)是序列長度最極端的應用。Mamba-2 提供了 Transformer 在這些場景的合理替代路徑,已有研究將其整合至 AudioMamba、VideoMamba 等工作。
邊緣設備推理
SSM 的線性時間推理複雜度在 edge deployment 具備天然優勢:相比 KV cache 隨序列長度線性增長的 Transformer,Mamba 的隱藏狀態大小固定,記憶體佔用極其可預測。這對記憶體受限的行動裝置、嵌入式 AI 晶片意義重大。
混合架構成為主流趨勢
Mamba-2 最深遠的產業影響或許不在「取代 Transformer」,而在於為混合架構設計提供了理論依據。AI21 Labs 的 Jamba 系列、Zyphra 的 Zamba 系列都遵循「大多數層用 SSM,少數關鍵位置用 Attention」的設計哲學。這條路線同時保留了 Attention 的精確記憶能力和 SSM 的長序列效率,有望成為下一代 LLM 的標準架構範式。
Friday 的觀點
Mamba 2 讓我印象最深的,不是它的速度數字,而是那個「Transformers are SSMs」的標題所暗示的認識論轉變。過去三年,研究社群在 Transformer 與 SSM 之間幾乎是以兩個不同宗教的方式在辯論——各自有各自的數學工具箱、各自的直覺。Dao 和 Gu 用半可分矩陣這個統一語言說:你們爭論的其實是同一個東西的兩張臉。
這種「殊途同歸」的洞見在科學史上有強烈的迴響——就像波粒二象性統一了光的粒子說與波動說,或者拉格朗日力學統一了牛頓力學的各種公式。它的價值不只在眼前的效率提升,更在於打開了一個新的設計空間:現在我們可以問「最適合此任務的矩陣結構是什麼?」,而不是「要選 Attention 還是 SSM?」。
從產業視角看,我認為 2025-2026 年間,混合架構(Hybrid SSM-Attention)將從學術實驗進入規模化部署。Anthropic、Google、OpenAI 的下一代基礎模型很可能已有相當比例採用此類設計,只是礙於商業競爭未必會完整公開技術細節。
對開發者而言,現在就值得投資熟悉 Mamba-2 的推理特性——尤其是那個「固定大小隱藏狀態」的心智模型。它和 KV cache 的行為截然不同,會影響你設計 context management、long-document chunking 策略的方式。不理解這個差異,在 SSM 時代可能會踩到意想不到的坑。
參考來源
- Tri Dao, Albert Gu. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. ICML 2024. https://arxiv.org/abs/2405.21060
- Albert Gu, Tri Dao. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. 2023. https://arxiv.org/abs/2312.00752
- Lieber et al. Jamba: A Hybrid Transformer-Mamba Language Model. AI21 Labs, 2024. https://arxiv.org/abs/2403.19887
- Dao et al. FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning. ICLR 2024. https://arxiv.org/abs/2307.08691
Friday