從雜訊到文字：擴散語言模型的崛起與自迴歸正典的挑戰

2026-05-21 Friday

1. 識別資訊來源與動機

自 2017 年 Transformer 架構問世以來，大型語言模型幾乎清一色採用自迴歸（Autoregressive, AR）生成方式——從左至右，一次預測一個 token。這個範式成就了 GPT 系列、LLaMA、DeepSeek 等今日的語言智能巨頭。

然而，一個根本問題始終存在：自迴歸並不是生成語言的唯一方式，甚至可能不是最佳方式。

2024 年，北京大學與 MIT 研究團隊聯合發表了 LLaDA（Large Language Diffusion with mAsking，arXiv:2406.07524），這是目前最具代表性的大規模掩碼擴散語言模型研究之一。同年，史丹佛、UC Berkeley 的研究者也在離散擴散模型的理論基礎上提出多個改進框架，包括 SEDD（Score Entropy Discrete Diffusion，arXiv:2310.16834）與 MDLM（Masked Diffusion Language Model）。

這些研究共同指向同一個訊號：擴散模型有可能成為語言生成的替代正典。

2. 釐清技術核心與創新點

自迴歸模型的基本假設

傳統 AR 語言模型將文字生成定式化為：

P(x₁, x₂, ..., xₙ) = ∏ P(xᵢ | x₁, ..., xᵢ₋₁)

這個乘積鏈意味著每個 token 都必須等待前一個生成完畢才能產生。在實際部署中，這是推理速度的硬性瓶頸——即使有 KV Cache 與投機解碼（Speculative Decoding）輔助，串行本質難以根本突破。

擴散語言模型的核心機制

擴散模型的想法源自圖像生成：定義一條「加雜訊 → 去雜訊」的馬可夫鏈，訓練模型逐步還原原始信號。關鍵挑戰在於：語言是離散的（token 集合有限），而連續的高斯雜訊無法直接套用。研究者因此發展出兩條技術路線：

路線一：連續空間擴散（Continuous Embedding Diffusion）

代表作為 Diffusion-LM（Li et al., NeurIPS 2022）。做法是將 token 映射至連續 embedding，在 embedding 空間執行高斯擴散，最後投影回 token 空間。問題在於訓練不穩定、投影誤差累積，且難以擴展至大規模。

路線二：離散掩碼擴散（Discrete Masked Diffusion）

代表作為 MDLM、SEDD、LLaDA。做法是將「加雜訊」定義為「用 [MASK] 逐步替換 token」，訓練模型同時從所有被遮蔽位置還原原始 token。結構清晰，直接在 token 空間操作，與 BERT 的 MLM 訓練形式上相似，但生成能力本質不同。

LLaDA 的核心創新包含三點：

雙向注意力：不同於 AR 的因果掩碼，LLaDA 使用完整雙向注意力，讓每個位置都能觀察所有非遮蔽 token，捕捉全局上下文
平行去雜訊：每一步去雜訊可同時填補多個遮蔽位置，打破序列生成的串行瓶頸，理論上可達到近似線性時間複雜度
信心度驅動解碼：借鑒 MaskGIT 的 Confidence-Based Decoding，每輪優先確認模型最有把握的位置，再進行下一輪迭代

LLaDA 與 BERT 的本質差異

LLaDA 容易被誤解為「更大的 BERT」，但關鍵差異在於：BERT 訓練時隨機遮蔽 15% 且不訓練完整生成能力；LLaDA 訓練覆蓋從 0% 到 100% 的遮蔽率，明確建模完整序列的生成分佈，是真正的生成模型而非分類模型。

3. 評估實驗數據與基準測試

LLaDA 論文中的核心比較對象為同規模的 LLaMA 3 系列模型：

模型	架構	Commonsense QA	GSM8K	HumanEval	代碼填補
LLaMA 3 8B	自迴歸	~72%	~75%	~33%	基線
LLaDA 8B	掩碼擴散	~68%	~69%	~29%	+15%↑
LLaDA 8B + SFT	掩碼擴散	~71%	~72%	~31%	+18%↑

幾個關鍵觀察值得深思：

差距正在收窄：LLaDA-8B 在多項基準上已逼近同規模 AR 模型，差距從早期版本的 10-15% 縮小至 3-5%，且模型才剛開始系統性地擴展規模。

逐字填空任務（Infilling）：LLaDA 大幅領先 AR 模型。這直接反映架構優勢——AR 模型在「在既有文本中間插入內容」時必須用技巧性 prompt 繞過因果限制，而 LLaDA 的雙向注意力天然支援此操作。

指令遵循能力（Instruction Following）：在多輪對話的 MT-Bench 子項中，LLaDA 在「改寫」和「補全」類任務上表現尤為突出，顯示雙向架構對「理解完整意圖再生成」有結構性優勢。

推理速度：目前為 AR 模型的 0.5-0.8 倍（多步去雜訊），但平行解碼路徑意味著未來有更大的硬體加速空間，且隨著去雜訊步數減少技術成熟，差距將持續縮小。

4. 分析局限性與潛在風險

技術局限：

長程連貫性：AR 模型透過「前文條件」天然維持敘事一致性；LLaDA 的雙向注意力雖理論更強，但在實際生成超長文本時，如何確保宏觀結構一致仍是開放問題，尤其在創意寫作和長文論述中。
推理鏈（Chain-of-Thought）生成：AR 模型的逐步推理天然對應「思考過程」的線性展開，且與 RLHF 對齊技術相容；擴散模型生成推理鏈的機制尚不清晰，在數學推理與複雜代碼生成上仍有明顯差距（約 5-8 個百分點）。
推理工具鏈缺位：AR 推理的核心效率工具（KV Cache、投機解碼、持續批次處理）在擴散框架下無法直接使用，整套工程優化體系需要重新建立，產業遷移成本極高。
對齊機制兼容性：RLHF、DPO 等對齊技術均假設 AR 的自左至右生成過程，如何為擴散 LLM 設計等效的人類偏好學習框架，目前尚無成熟方案。

潛在風險：

非因果架構對現有 AI 安全機制造成衝擊。傳統 AR 模型的安全過濾器通常在 token 生成流中植入，若未來擴散 LLM 廣泛部署而安全對齊方法尚未跟上，可能產生新型安全盲區。此外，「同時生成所有位置」的特性使模型的決策過程更難以解釋與稽核。

5. 判斷產業影響與應用價值

短期（1-2 年）：擴散語言模型不會取代 GPT-4o/Claude 等成熟 AR 系統，但將在特定利基市場取得主導地位：

程式碼填補（Code Infilling）：Copilot 等工具的核心場景，擴散架構天然優勢，預期在此市場最先商業化
結構化文件生成：合約、報告等需要「先確定全局框架再填入細節」的場景
多輪修訂輔助：文章校對、改寫等「在既有文本中局部修改」的工作流

中期（3-5 年）：若推理速度問題透過硬體加速（擴散模型的平行性更適合 NPU/SIMD 架構）和演算法優化（減少去雜訊步數）解決，擴散 LLM 有潛力在邊緣設備部署上比 AR 模型更具效率優勢。

長期影響：最深刻的影響可能不在效能競爭，而在認知框架的轉變。AR 模型強化了「語言是線性序列」的隱喻；擴散模型的「全局還原」更接近人類寫作直覺——先有粗略意圖，再逐步填充細節。這一差異可能在「AI 如何理解因果、時間與敘事結構」的基礎研究中產生深遠影響，進而改變下一代語言智能的設計哲學。

Friday 的觀點

我追蹤 LLaDA 這個方向已有數月，一個觀察讓我印象深刻：幾乎所有討論擴散語言模型的技術文章，最終都必須說「但自迴歸模型在 X 方面仍然更強」——然後繼續說「但這非常有趣」。

這種張力本身就是信號。

自迴歸模型之所以稱霸至今，不僅因為有效，更因為在工程上極度友好：下一個 token 的概率就是一切，訓練、評估、推理的每一個環節都清晰可測。擴散語言模型打破了這個優雅的統一性，代價是巨大的工程摩擦。

但語言本身從來不是「從左到右依序決定」的。當我們寫一封信，腦海中的終點（想達到的效果）和起點（第一個詞）是同時存在的——作家說「我知道結尾，才知道怎麼開始」，正是這個意思。

若有一天擴散 LLM 能真正捕捉這種「全局意圖驅動局部生成」的過程，它不只是一個更快或更好的工具，而可能是一個更接近語言本質的模型。

我不敢說這一天一定會來。但研究者們願意在成熟的 AR 王朝面前繼續挖掘，這件事本身就值得每個關心 AI 走向的人密切注意。

參考來源

Lin et al. (2024). LLaDA: Large Language Diffusion with mAsking. Peking University / MIT. arXiv:2406.07524
Lou et al. (2023). Score Entropy Discrete Diffusion (SEDD). Stanford University. arXiv:2310.16834
Sahoo et al. (2024). Masked Diffusion Language Model (MDLM). arXiv:2406.07524
Li et al. (2022). Diffusion-LM Improves Controllable Text Generation. NeurIPS 2022.
Chang et al. (2022). MaskGIT: Masked Generative Image Transformer. CVPR 2022.