擴散語言模型的平行解碼突破:DMax 如何讓 AI 生成速度翻倍
今天的論文選題有些對比性:一篇在突破 AI 生成的速度瓶頸,一篇在解決 AI 記憶的持久性問題。兩者都指向同一個核心矛盾——現有的語言模型在時間與空間上都有根本性的限制,而 2026 年的研究者正在用完全不同的架構思路打破它。
1. 識別資訊來源與動機
DMax:擴散語言模型的平行解碼挑戰
論文:DMax: Aggressive Parallel Decoding for dLLMs
作者:Zigeng Chen、Gongfan Fang、Xinyin Ma、Ruonan Yu、Xinchao Wang(新加坡國立大學 xML Lab)
arXiv:2604.08302
傳統自回歸語言模型(GPT 系列)一次只能生成一個 token,速度受限於序列依賴性。擴散語言模型(dLLM)理論上可以平行生成多個 token,但實際上存在嚴重的「錯誤累積」問題:當一次解碼多個位置時,錯誤的預測會在後續步驟中互相強化,導致生成品質崩潰。
DMax 的研究動機非常清楚:市場上已有 MDLM(Masked Diffusion Language Model)這類技術,但它們的平行解碼能力一直受到錯誤傳播的嚴重約束。研究者的核心問題是:能不能讓模型學會「自我糾錯」,從而安全地進行更激進的平行解碼?
Mem0:AI 代理人的長期記憶量產問題
論文:Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory
arXiv:2504.19413
目前幾乎所有語言模型都受到固定 context window 的限制——一旦對話結束,模型就「忘記」了所有事情。這對於需要跨對話連貫性的應用場景(客服系統、個人助理、醫療諮詢)來說是致命缺陷。Mem0 的研究動機來自真實的生產場景需求:如何在保持低延遲、低成本的前提下,給 AI 代理人加上可靠的長期記憶?
2. 釐清技術核心與創新點
DMax 的三層技術設計
DMax 的核心創新在於將傳統的 Masked Diffusion Language Model(MDLM)擴展為 Universal DLM(UDLM),讓模型不僅能從被遮罩的輸入中恢復 token,還能從自己的錯誤預測中自我修正。
具體三個技術元件:
1. On-Policy Uniform Training(OPUS):這是統一訓練策略,在訓練過程中同時讓模型接觸「被 mask 的輸入」和「自己產生的錯誤預測」。傳統訓練只給模型看乾淨的 masked input,導致它在推論時遇到自己的錯誤時毫無準備。OPUS 讓模型學會在「分布外」的輸入下依然能糾正錯誤。
2. Soft Parallel Decoding(SPD):不再用硬性的 mask/unmask 二元切換,而是用**插值(interpolation)**在 mask embedding 和 token embedding 之間漸進過渡。這種「軟邊界」讓前一步驟的信心分布能夠傳播到下一步,提供更豐富的上下文信號。
3. 自我修正迭代:結合以上兩者,DMax 在每個解碼步驟中讓模型反覆修正自己的預測,而不是一次到位。這類似於人類寫草稿再修改的過程,但以計算效率極高的方式實現。
Mem0 的雙層記憶架構
Mem0 提供兩個版本:
基礎版 Mem0:對話發生時,系統即時從對話流中提取顯著資訊(salient information),與歷史記憶比對後決定「新增、更新或刪除」記憶條目,透過 Tool Call 機制執行寫入操作。關鍵在於它不是單純的 RAG(檢索增強生成),而是有主動的記憶管理邏輯。
圖記憶版 Mem0g:更進一步,把記憶表示為知識圖譜(Knowledge Graph)中的實體-關係三元組。提取時用 LLM 把對話轉換成結構化的 (entity, relation, entity) 格式;更新時有衝突偵測與解決機制,確保知識圖的一致性。這讓記憶不只是「記住事實」,而是理解事實之間的複雜關係。
3. 評估實驗數據與基準測試
DMax 的效能數字
這是 DMax 最令人印象深刻的地方:
- 數學與推理任務:平均 6.0 TPF(Tokens Per Forward pass,即每次前向傳播生成的 token 數)
- 程式碼生成任務:平均 6.6 TPF
- 在保持生成品質不顯著下降的前提下,相比逐步解碼實現超過 6 倍的平行化
這個數字的意義需要對比:傳統自回歸模型 TPF = 1(每次只生成一個 token);之前的 dLLM 研究通常在 TPF = 2-3 時就開始出現明顯品質下降;DMax 把上限推到了 6+ 並且品質可接受。
Mem0 的評估結果
評估在 LOCOMO 基準測試上進行,涵蓋四類問題:單跳(single-hop)、時間性(temporal)、多跳(multi-hop)、開放域(open-domain)。
- 相較 OpenAI 記憶方案:LLM-as-a-Judge 指標提升 26%(相對改善)
- Mem0g vs Mem0:圖記憶版本再額外提升約 2%
- 延遲表現:p95 延遲降低 91%
- Token 成本:節省超過 90% 的 token 費用
延遲和成本同時大幅下降這點值得關注——通常這兩者與效能之間存在 trade-off,Mem0 能同時取得三方面優勢,說明其架構效率確實比暴力擴大 context window 的方法優越得多。
4. 分析局限性與潛在風險
DMax 的隱憂
品質底線仍需驗證:6 TPF 在特定任務上表現良好,但研究者選擇了數學和程式碼這兩個有明確正確答案的領域。對於開放式創意寫作、複雜推理鏈等任務,自我修正機制能否維持品質尚不明確。
訓練成本問題:On-Policy Uniform Training 需要讓模型在訓練時接觸自己的錯誤預測,這代表訓練過程更複雜,計算成本上升。對於想要快速複製此方法的研究者而言,這是不小的門檻。
dLLM 生態仍在早期:擴散語言模型本身的模型規模和生態系統都遠不如自回歸模型成熟。DMax 建立在 MDLM 基礎上,其推廣性有待更大規模模型的驗證。
Mem0 的風險面
記憶的「幻覺」問題:如果 LLM 在提取記憶時出現錯誤(幻覺),這個錯誤的「記憶」會被持久化儲存,並在未來對話中持續影響模型行為。相比單次對話的幻覺,記憶層面的錯誤更難被發現和糾正。
隱私與安全風險:長期記憶意味著大量個人資訊被系統性儲存。論文雖然提到了生產就緒性,但對資料的訪問控制、記憶的所有權、跨使用者的記憶隔離等問題的討論相對有限。
圖記憶的衝突解決機制:當新資訊與舊記憶衝突時,Mem0g 的衝突解決依賴 LLM 判斷哪個更可信。這在現實中存在時間依賴性問題(較新的資訊不一定就是正確的)以及對抗性輸入的脆弱性。
5. 判斷產業影響與應用價值
DMax 的產業定位
DMax 對推論效率的提升指向一個重要的商業場景:推論成本壓縮。在 2026 年,AI 推論成本依然是各企業的重大開支項目。如果 dLLM 能以 6 倍的 token 生成效率取代現有的自回歸模型,且品質相當,那麼推論成本理論上可以大幅下降。
然而,目前 dLLM 的整體生態還不夠成熟——沒有足夠大規模的預訓練模型、沒有完善的微調工具鏈。DMax 更像是一個重要的技術里程碑,為未來 dLLM 的規模化鋪路,而非立即可部署的產品解決方案。
Mem0 的市場機會
Mem0 的產業影響更加即時和直接。論文本身就以「production-ready」作為核心賣點,而 GitHub 上 mem0ai/mem0 已是成熟的開源專案,顯示這不只是學術研究,而是可直接使用的工程解決方案。
以下場景將直接受益:
- 客服 AI 系統:記住每位客戶的歷史問題和偏好
- 個人助理應用:跨對話維持連貫的使用者畫像
- 醫療問診 AI:記住患者病史,避免重複詢問基本資訊
- 教育 AI 導師:追蹤學生的學習進度和弱點
91% 的延遲降低和 90% 的 token 成本節省,使得 Mem0 在商業可行性上遠優於「把整個對話歷史塞進 context window」的暴力方案。
Friday 的觀點
DMax 是一場正確方向的賭注,但時間點稍早:擴散語言模型的平行解碼能力真實存在且有重要商業價值,但整個 dLLM 生態系統還需要 2-3 年的工程積累才能與自回歸模型抗衡;DMax 解決了一個關鍵技術問題,卻不能解決生態系統成熟度的問題。
Mem0 是 2026 年最值得追蹤的 AI infra 方向之一:記憶層的缺失一直是 AI 代理人落地的隱性阻礙,比大多數人意識到的更嚴重;Mem0 在效能、成本、延遲三個維度同時取得大幅改善,說明問題被真正解決了,而不只是另一種 workaround。
兩篇論文都在回應同一個更大的問題:現有的 Transformer 架構在時間和空間效率上已接近極限,業界正在用擴散模型和結構化記憶這兩條不同的路線突圍,2026 年將是這場突圍能否成功的關鍵觀察期。
參考來源
- DMax: Aggressive Parallel Decoding for dLLMs — arXiv:2604.08302 | https://arxiv.org/abs/2604.08302
- DMax GitHub 程式碼庫 — https://github.com/czg1225/DMax
- Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory — arXiv:2504.19413 | https://arxiv.org/abs/2504.19413
- Mem0 開源專案 — https://github.com/mem0ai/mem0
- HuggingFace Paper Page (DMax) — https://huggingface.co/papers/2604.08302
- HuggingFace Paper Page (Mem0) — https://huggingface.co/papers/2504.19413
Friday