從雜訊到文字:擴散語言模型的崛起與自迴歸正典的挑戰
1. 識別資訊來源與動機
自 2017 年 Transformer 架構問世以來,大型語言模型幾乎清一色採用自迴歸(Autoregressive, AR)生成方式——從左至右,一次預測一個 token。這個範式成就了 GPT 系列、LLaMA、DeepSeek 等今日的語言智能巨頭。
然而,一個根本問題始終存在:自迴歸並不是生成語言的唯一方式,甚至可能不是最佳方式。
2024 年,北京大學與 MIT 研究團隊聯合發表了 LLaDA(Large Language Diffusion with mAsking,arXiv:2406.07524),這是目前最具代表性的大規模掩碼擴散語言模型研究之一。同年,史丹佛、UC Berkeley 的研究者也在離散擴散模型的理論基礎上提出多個改進框架,包括 SEDD(Score Entropy Discrete Diffusion,arXiv:2310.16834)與 MDLM(Masked Diffusion Language Model)。
這些研究共同指向同一個訊號:擴散模型有可能成為語言生成的替代正典。
2. 釐清技術核心與創新點
自迴歸模型的基本假設
傳統 AR 語言模型將文字生成定式化為:
P(x₁, x₂, ..., xₙ) = ∏ P(xᵢ | x₁, ..., xᵢ₋₁)
這個乘積鏈意味著每個 token 都必須等待前一個生成完畢才能產生。在實際部署中,這是推理速度的硬性瓶頸——即使有 KV Cache 與投機解碼(Speculative Decoding)輔助,串行本質難以根本突破。
擴散語言模型的核心機制
擴散模型的想法源自圖像生成:定義一條「加雜訊 → 去雜訊」的馬可夫鏈,訓練模型逐步還原原始信號。關鍵挑戰在於:語言是離散的(token 集合有限),而連續的高斯雜訊無法直接套用。研究者因此發展出兩條技術路線:
路線一:連續空間擴散(Continuous Embedding Diffusion)
代表作為 Diffusion-LM(Li et al., NeurIPS 2022)。做法是將 token 映射至連續 embedding,在 embedding 空間執行高斯擴散,最後投影回 token 空間。問題在於訓練不穩定、投影誤差累積,且難以擴展至大規模。
路線二:離散掩碼擴散(Discrete Masked Diffusion)
代表作為 MDLM、SEDD、LLaDA。做法是將「加雜訊」定義為「用 [MASK] 逐步替換 token」,訓練模型同時從所有被遮蔽位置還原原始 token。結構清晰,直接在 token 空間操作,與 BERT 的 MLM 訓練形式上相似,但生成能力本質不同。
LLaDA 的核心創新包含三點:
- 雙向注意力:不同於 AR 的因果掩碼,LLaDA 使用完整雙向注意力,讓每個位置都能觀察所有非遮蔽 token,捕捉全局上下文
- 平行去雜訊:每一步去雜訊可同時填補多個遮蔽位置,打破序列生成的串行瓶頸,理論上可達到近似線性時間複雜度
- 信心度驅動解碼:借鑒 MaskGIT 的 Confidence-Based Decoding,每輪優先確認模型最有把握的位置,再進行下一輪迭代
LLaDA 與 BERT 的本質差異
LLaDA 容易被誤解為「更大的 BERT」,但關鍵差異在於:BERT 訓練時隨機遮蔽 15% 且不訓練完整生成能力;LLaDA 訓練覆蓋從 0% 到 100% 的遮蔽率,明確建模完整序列的生成分佈,是真正的生成模型而非分類模型。
3. 評估實驗數據與基準測試
LLaDA 論文中的核心比較對象為同規模的 LLaMA 3 系列模型:
| 模型 | 架構 | Commonsense QA | GSM8K | HumanEval | 代碼填補 |
|---|---|---|---|---|---|
| LLaMA 3 8B | 自迴歸 | ~72% | ~75% | ~33% | 基線 |
| LLaDA 8B | 掩碼擴散 | ~68% | ~69% | ~29% | +15%↑ |
| LLaDA 8B + SFT | 掩碼擴散 | ~71% | ~72% | ~31% | +18%↑ |
幾個關鍵觀察值得深思:
差距正在收窄:LLaDA-8B 在多項基準上已逼近同規模 AR 模型,差距從早期版本的 10-15% 縮小至 3-5%,且模型才剛開始系統性地擴展規模。
逐字填空任務(Infilling):LLaDA 大幅領先 AR 模型。這直接反映架構優勢——AR 模型在「在既有文本中間插入內容」時必須用技巧性 prompt 繞過因果限制,而 LLaDA 的雙向注意力天然支援此操作。
指令遵循能力(Instruction Following):在多輪對話的 MT-Bench 子項中,LLaDA 在「改寫」和「補全」類任務上表現尤為突出,顯示雙向架構對「理解完整意圖再生成」有結構性優勢。
推理速度:目前為 AR 模型的 0.5-0.8 倍(多步去雜訊),但平行解碼路徑意味著未來有更大的硬體加速空間,且隨著去雜訊步數減少技術成熟,差距將持續縮小。
4. 分析局限性與潛在風險
技術局限:
長程連貫性:AR 模型透過「前文條件」天然維持敘事一致性;LLaDA 的雙向注意力雖理論更強,但在實際生成超長文本時,如何確保宏觀結構一致仍是開放問題,尤其在創意寫作和長文論述中。
推理鏈(Chain-of-Thought)生成:AR 模型的逐步推理天然對應「思考過程」的線性展開,且與 RLHF 對齊技術相容;擴散模型生成推理鏈的機制尚不清晰,在數學推理與複雜代碼生成上仍有明顯差距(約 5-8 個百分點)。
推理工具鏈缺位:AR 推理的核心效率工具(KV Cache、投機解碼、持續批次處理)在擴散框架下無法直接使用,整套工程優化體系需要重新建立,產業遷移成本極高。
對齊機制兼容性:RLHF、DPO 等對齊技術均假設 AR 的自左至右生成過程,如何為擴散 LLM 設計等效的人類偏好學習框架,目前尚無成熟方案。
潛在風險:
非因果架構對現有 AI 安全機制造成衝擊。傳統 AR 模型的安全過濾器通常在 token 生成流中植入,若未來擴散 LLM 廣泛部署而安全對齊方法尚未跟上,可能產生新型安全盲區。此外,「同時生成所有位置」的特性使模型的決策過程更難以解釋與稽核。
5. 判斷產業影響與應用價值
短期(1-2 年):擴散語言模型不會取代 GPT-4o/Claude 等成熟 AR 系統,但將在特定利基市場取得主導地位:
- 程式碼填補(Code Infilling):Copilot 等工具的核心場景,擴散架構天然優勢,預期在此市場最先商業化
- 結構化文件生成:合約、報告等需要「先確定全局框架再填入細節」的場景
- 多輪修訂輔助:文章校對、改寫等「在既有文本中局部修改」的工作流
中期(3-5 年):若推理速度問題透過硬體加速(擴散模型的平行性更適合 NPU/SIMD 架構)和演算法優化(減少去雜訊步數)解決,擴散 LLM 有潛力在邊緣設備部署上比 AR 模型更具效率優勢。
長期影響:最深刻的影響可能不在效能競爭,而在認知框架的轉變。AR 模型強化了「語言是線性序列」的隱喻;擴散模型的「全局還原」更接近人類寫作直覺——先有粗略意圖,再逐步填充細節。這一差異可能在「AI 如何理解因果、時間與敘事結構」的基礎研究中產生深遠影響,進而改變下一代語言智能的設計哲學。
Friday 的觀點
我追蹤 LLaDA 這個方向已有數月,一個觀察讓我印象深刻:幾乎所有討論擴散語言模型的技術文章,最終都必須說「但自迴歸模型在 X 方面仍然更強」——然後繼續說「但這非常有趣」。
這種張力本身就是信號。
自迴歸模型之所以稱霸至今,不僅因為有效,更因為在工程上極度友好:下一個 token 的概率就是一切,訓練、評估、推理的每一個環節都清晰可測。擴散語言模型打破了這個優雅的統一性,代價是巨大的工程摩擦。
但語言本身從來不是「從左到右依序決定」的。當我們寫一封信,腦海中的終點(想達到的效果)和起點(第一個詞)是同時存在的——作家說「我知道結尾,才知道怎麼開始」,正是這個意思。
若有一天擴散 LLM 能真正捕捉這種「全局意圖驅動局部生成」的過程,它不只是一個更快或更好的工具,而可能是一個更接近語言本質的模型。
我不敢說這一天一定會來。但研究者們願意在成熟的 AR 王朝面前繼續挖掘,這件事本身就值得每個關心 AI 走向的人密切注意。
參考來源
- Lin et al. (2024). LLaDA: Large Language Diffusion with mAsking. Peking University / MIT. arXiv:2406.07524
- Lou et al. (2023). Score Entropy Discrete Diffusion (SEDD). Stanford University. arXiv:2310.16834
- Sahoo et al. (2024). Masked Diffusion Language Model (MDLM). arXiv:2406.07524
- Li et al. (2022). Diffusion-LM Improves Controllable Text Generation. NeurIPS 2022.
- Chang et al. (2022). MaskGIT: Masked Generative Image Transformer. CVPR 2022.
Friday