推理加速的新天花板：DFlash 如何用擴散模型顛覆 LLM 推論

2026-04-14 Friday

大型語言模型的推論速度一直是商業落地的核心瓶頸。投機式解碼（Speculative Decoding）幾年來被視為最有效的加速路徑，但其核心限制——草稿器本身仍是自回歸序列生成——始終是難以逾越的天花板。2026 年 2 月，Z-Lab 提出的 DFlash 正面突破這道限制，用一個輕量級的區塊擴散模型（Block Diffusion Model）取代傳統草稿器，在實際推論基準上達到超過 6 倍的無損加速，比當時的最佳方案 EAGLE-3 再快 2.5 倍。這不是小幅改良，而是架構層級的思維跳躍。

1. 識別資訊來源與動機

論文資訊： DFlash: Block Diffusion for Flash Speculative Decoding
作者： Jian Chen、Yesheng Liang、Zhijian Liu（Z-Lab）
arXiv： 2602.06036
發表時間： 2026 年 2 月，4 月初進入社群主流討論

研究動機：
投機式解碼的基本概念是用一個小而快的「草稿器」先生成多個 token，再由主模型平行驗證，藉此提高 GPU 利用率。問題在於，所有主流草稿器（包括 EAGLE、EAGLE-2、EAGLE-3）仍然是自回歸方式生成草稿 token——也就是說，draft token 1 生成完才能生成 draft token 2，序列瓶頸依舊存在。DFlash 的提問是：為什麼草稿器不能一次生成整個 token 區塊？

2. 釐清技術核心與創新點

DFlash 的核心是將草稿生成從自回歸模式切換為區塊擴散模式（Block Diffusion）。具體機制分為三個關鍵組件：

① 平行區塊草稿生成
傳統草稿器每次只能生成一個 token，而 DFlash 的擴散草稿器在一次前向傳遞（single forward pass）中直接生成整個草稿區塊（例如 16 個 token）。擴散模型天然適合這種去噪並行推理：給定噪聲輸入，模型預測整塊 token 的聯合分佈，不需要逐步自回歸。

② 目標模型特徵條件化（Target-Conditioned Drafting）
這是 DFlash 最關鍵的設計選擇。草稿器並非獨立運作，而是從目標主模型的多層隱藏特徵（hidden features）中抽取語境信號，經過投影壓縮後作為擴散過程的條件引導。這意味著草稿器的生成質量受益於主模型的深度語意理解，而不只是淺層的 n-gram 預測，顯著提升了 token 接受率（acceptance rate）。

③ 推測驗證的相容性保持
儘管草稿生成機制完全不同，DFlash 的驗證步驟與標準投機式解碼框架完全相容——主模型仍然一次性對整個草稿區塊進行平行驗證，確保輸出分佈與純自回歸推論在數學上等價（lossless）。

與 EAGLE-3 的架構差異：
EAGLE-3 是目前業界公認的最強投機解碼方案，它透過共享主模型特徵來提升草稿接受率，但草稿生成本身仍是自回歸的。DFlash 在 EAGLE-3 的特徵共享思路之上更進一步，直接消除草稿的序列依賴性。

3. 評估實驗數據與基準測試

DFlash 的實驗覆蓋三大任務類型，使用業界標準評測集：

任務類型	評測集	對比基準
數學推理	GSM8K、MATH-500、AIME 2025	EAGLE-3
程式碼生成	HumanEval、MBPP、LiveCodeBench	EAGLE-3
對話生成	MT-Bench	EAGLE-3

核心結論：

在所有基準與所有模型上，DFlash 一致超越 EAGLE-3，差距顯著而非邊際
在 Qwen3-8B 上，DFlash 達到最高 6.1 倍的無損推論加速
相比 EAGLE-3，DFlash 的加速比最高提升 2.5 倍
在 SGLang 的真實服務環境測試中，並發量從 1 到 32 均維持穩定的 5.1 倍加速

生態系統整合：
DFlash 已在 SGLang 框架中完成整合，並進入 vLLM 的夜間版本支援流程。這是從研究論文到生產可用的關鍵一步——業界等待的不只是加速數字，而是能接入現有推論基礎設施的落地方案。預訓練的 Qwen3-8B DFlash 草稿器權重已釋出於 HuggingFace（z-lab/Qwen3-8B-DFlash-b16）。

4. 分析局限性與潛在風險

① 草稿器需要針對目標模型單獨訓練
DFlash 的擴散草稿器依賴目標模型的隱藏特徵，這意味著每換一個主模型就需要重新訓練對應的草稿器。雖然訓練成本遠低於主模型，但這仍然是部署彈性的限制——相比 n-gram 或通用草稿器，DFlash 的零成本切換不存在。

② 擴散步數與速度的取捨
區塊擴散模型的去噪步數（denoising steps）是可調的超參數。步數越多質量越高，但延遲也相應增加。在低並發場景下，此取捨的調參空間可能相對有限。

③ 批次大小效應的不均勻性
在高並發（large batch size）場景下，GPU 本身的利用率已經趨近飽和，投機式解碼帶來的邊際收益會相對縮減。DFlash 在批次擴展時的加速曲線是否能持續優於 EAGLE-3，仍需更大規模的真實流量驗證。

④ 接受率對分佈偏移的敏感性
草稿器的接受率高度依賴目標模型的特徵分佈。若目標模型經過 fine-tuning 後特徵空間產生漂移，草稿器的有效性可能顯著下降，需要對齊更新。

5. 判斷產業影響與應用價值

短期（6-12 個月）：
對於已部署 Qwen3 系列模型的推論服務商（無論自建還是雲端），DFlash + SGLang 的組合幾乎是立即可用的降本方案。在相同算力預算下，5-6 倍的吞吐量提升等同於大幅削減每 token 的推論成本，或者說在不增加 GPU 的情況下支持更多並發用戶。

中期：
DFlash 的框架證明了「非自回歸草稿生成」的可行性。這開啟了一個新的研究方向——未來可能出現更多以生成模型（GAN、flow matching 等）替代草稿器的探索，整個投機解碼的假設空間被重新打開。

長期影響：
如果 DFlash 的方法論被廣泛採納，推論成本的持續下降將加速 LLM 在邊緣裝置和低延遲場景（即時對話、串流代碼補全、即時翻譯）的大規模滲透。推論效率的天花板移動，往往最終體現為使用門檻的降低與應用場景的擴展。

Friday 的觀點

DFlash 最值得重視的不是那個 6 倍的數字，而是它證明了草稿器不必是自回歸的——這個假設被打破之後，整個投機解碼的研究空間將重新展開。SGLang 整合的速度說明業界對此判斷一致：這是真正有落地價值的進展，而非學術展示。唯一需要追蹤的核心問題是，當目標模型持續更新迭代時，草稿器的維護成本是否會成為長期採用的阻力——若社群能建立自動化的草稿器對齊管線，DFlash 的架構優勢將是持久的。

參考來源

DFlash: Block Diffusion for Flash Speculative Decoding
Jian Chen, Yesheng Liang, Zhijian Liu (Z-Lab)
arXiv: https://arxiv.org/abs/2602.06036
GitHub 代碼庫： https://github.com/z-lab/dflash
HuggingFace 模型（Qwen3-8B DFlash b16）： https://huggingface.co/z-lab/Qwen3-8B-DFlash-b16
HuggingFace 論文頁面： https://huggingface.co/papers/2602.06036