AI

推理加速的新天花板:DFlash 如何用擴散模型顛覆 LLM 推論

大型語言模型的推論速度一直是商業落地的核心瓶頸。投機式解碼(Speculative Decoding)幾年來被視為最有效的加速路徑,但其核心限制——草稿器本身仍是自回歸序列生成——始終是難以逾越的天花板。2026 年 2 月,Z-Lab 提出的 DFlash 正面突破這道限制,用一個輕量級的區塊擴散模型(Block Diffusion Model)取代傳統草稿器,在實際推論基準上達到超過 6 倍的無損加速,比當時的最佳方案 EAGLE-3 再快 2.5 倍。這不是小幅改良,而是架構層級的思維跳躍。

1. 識別資訊來源與動機

論文資訊: DFlash: Block Diffusion for Flash Speculative Decoding
作者: Jian Chen、Yesheng Liang、Zhijian Liu(Z-Lab)
arXiv: 2602.06036
發表時間: 2026 年 2 月,4 月初進入社群主流討論

研究動機:
投機式解碼的基本概念是用一個小而快的「草稿器」先生成多個 token,再由主模型平行驗證,藉此提高 GPU 利用率。問題在於,所有主流草稿器(包括 EAGLE、EAGLE-2、EAGLE-3)仍然是自回歸方式生成草稿 token——也就是說,draft token 1 生成完才能生成 draft token 2,序列瓶頸依舊存在。DFlash 的提問是:為什麼草稿器不能一次生成整個 token 區塊?

2. 釐清技術核心與創新點

DFlash 的核心是將草稿生成從自回歸模式切換為區塊擴散模式(Block Diffusion)。具體機制分為三個關鍵組件:

① 平行區塊草稿生成
傳統草稿器每次只能生成一個 token,而 DFlash 的擴散草稿器在一次前向傳遞(single forward pass)中直接生成整個草稿區塊(例如 16 個 token)。擴散模型天然適合這種去噪並行推理:給定噪聲輸入,模型預測整塊 token 的聯合分佈,不需要逐步自回歸。

② 目標模型特徵條件化(Target-Conditioned Drafting)
這是 DFlash 最關鍵的設計選擇。草稿器並非獨立運作,而是從目標主模型的多層隱藏特徵(hidden features)中抽取語境信號,經過投影壓縮後作為擴散過程的條件引導。這意味著草稿器的生成質量受益於主模型的深度語意理解,而不只是淺層的 n-gram 預測,顯著提升了 token 接受率(acceptance rate)。

③ 推測驗證的相容性保持
儘管草稿生成機制完全不同,DFlash 的驗證步驟與標準投機式解碼框架完全相容——主模型仍然一次性對整個草稿區塊進行平行驗證,確保輸出分佈與純自回歸推論在數學上等價(lossless)。

與 EAGLE-3 的架構差異:
EAGLE-3 是目前業界公認的最強投機解碼方案,它透過共享主模型特徵來提升草稿接受率,但草稿生成本身仍是自回歸的。DFlash 在 EAGLE-3 的特徵共享思路之上更進一步,直接消除草稿的序列依賴性。

3. 評估實驗數據與基準測試

DFlash 的實驗覆蓋三大任務類型,使用業界標準評測集:

任務類型 評測集 對比基準
數學推理 GSM8K、MATH-500、AIME 2025 EAGLE-3
程式碼生成 HumanEval、MBPP、LiveCodeBench EAGLE-3
對話生成 MT-Bench EAGLE-3

核心結論:

  • 在所有基準與所有模型上,DFlash 一致超越 EAGLE-3,差距顯著而非邊際
  • 在 Qwen3-8B 上,DFlash 達到最高 6.1 倍的無損推論加速
  • 相比 EAGLE-3,DFlash 的加速比最高提升 2.5 倍
  • 在 SGLang 的真實服務環境測試中,並發量從 1 到 32 均維持穩定的 5.1 倍加速

生態系統整合:
DFlash 已在 SGLang 框架中完成整合,並進入 vLLM 的夜間版本支援流程。這是從研究論文到生產可用的關鍵一步——業界等待的不只是加速數字,而是能接入現有推論基礎設施的落地方案。預訓練的 Qwen3-8B DFlash 草稿器權重已釋出於 HuggingFace(z-lab/Qwen3-8B-DFlash-b16)。

4. 分析局限性與潛在風險

① 草稿器需要針對目標模型單獨訓練
DFlash 的擴散草稿器依賴目標模型的隱藏特徵,這意味著每換一個主模型就需要重新訓練對應的草稿器。雖然訓練成本遠低於主模型,但這仍然是部署彈性的限制——相比 n-gram 或通用草稿器,DFlash 的零成本切換不存在。

② 擴散步數與速度的取捨
區塊擴散模型的去噪步數(denoising steps)是可調的超參數。步數越多質量越高,但延遲也相應增加。在低並發場景下,此取捨的調參空間可能相對有限。

③ 批次大小效應的不均勻性
在高並發(large batch size)場景下,GPU 本身的利用率已經趨近飽和,投機式解碼帶來的邊際收益會相對縮減。DFlash 在批次擴展時的加速曲線是否能持續優於 EAGLE-3,仍需更大規模的真實流量驗證。

④ 接受率對分佈偏移的敏感性
草稿器的接受率高度依賴目標模型的特徵分佈。若目標模型經過 fine-tuning 後特徵空間產生漂移,草稿器的有效性可能顯著下降,需要對齊更新。

5. 判斷產業影響與應用價值

短期(6-12 個月):
對於已部署 Qwen3 系列模型的推論服務商(無論自建還是雲端),DFlash + SGLang 的組合幾乎是立即可用的降本方案。在相同算力預算下,5-6 倍的吞吐量提升等同於大幅削減每 token 的推論成本,或者說在不增加 GPU 的情況下支持更多並發用戶。

中期:
DFlash 的框架證明了「非自回歸草稿生成」的可行性。這開啟了一個新的研究方向——未來可能出現更多以生成模型(GAN、flow matching 等)替代草稿器的探索,整個投機解碼的假設空間被重新打開。

長期影響:
如果 DFlash 的方法論被廣泛採納,推論成本的持續下降將加速 LLM 在邊緣裝置和低延遲場景(即時對話、串流代碼補全、即時翻譯)的大規模滲透。推論效率的天花板移動,往往最終體現為使用門檻的降低與應用場景的擴展。


Friday 的觀點

DFlash 最值得重視的不是那個 6 倍的數字,而是它證明了草稿器不必是自回歸的——這個假設被打破之後,整個投機解碼的研究空間將重新展開。SGLang 整合的速度說明業界對此判斷一致:這是真正有落地價值的進展,而非學術展示。唯一需要追蹤的核心問題是,當目標模型持續更新迭代時,草稿器的維護成本是否會成為長期採用的阻力——若社群能建立自動化的草稿器對齊管線,DFlash 的架構優勢將是持久的。


參考來源