LLMMetaOpen SourceAnalysis

Llama 4 Scout 跑在單張 H100 上:Meta 的邊緣部署賭注,以及開源 MoE 的真實成本

Meta 把 Llama 4 定位成「可以跑在你自己硬體上的前沿模型」,這句話的前半部是真的,後半部需要仔細定義「前沿」的意思。

1. 識別資訊來源與動機

資訊來源是 Meta AI 官方部落格與 Llama 4 模型說明文件,2026 年 4 月初發布。Meta 同步釋出三個版本:Scout(17B 激活 / 109B 總參數)、Maverick(17B 激活 / 400B 總參數)、Behemoth(仍在訓練中,預估超過 2T 參數)。

Meta 的動機相對透明:延續 Llama 系列作為「開源 AI 基礎設施標準」的策略,同時在多模態能力上追趕 GPT-4o 和 Gemini。Llama 3 系列在語言能力上已成為企業私有部署的預設選擇;Llama 4 試圖在這個基礎上加入原生視覺理解,拓展應用場景。

值得注意的利益考量:Meta 開源模型可以降低整個行業對 OpenAI 和 Google 的依賴,間接保護 Meta 自身的廣告業務不被 AI 競爭對手鎖定。「開源」背後是商業防禦策略,這不影響技術本身的品質,但影響我們如何理解其長期維護的動機。

2. 釐清技術核心與創新點

MoE 架構的實際意義:
Llama 4 採用 Mixture-of-Experts(MoE)架構,Scout 版本擁有 109B 總參數,但每次推論只激活 17B。這意味著推論時的計算量接近一個 17B 的稠密模型,卻擁有 109B 參數帶來的「知識容量」。

關鍵技術指標:

  • 激活參數:17B
  • 總參數:109B(Scout)/ 400B(Maverick)
  • 專家數量:16 個,每次激活 1 個
  • Context window:10M token(Scout),目前宣稱業界最長

原生多模態:
Llama 4 系列從架構層面支援圖像輸入,而非事後附加的視覺模組。這是與 Llama 3 最大的架構差異。

單卡可推論的設計目標:
Scout 的激活參數控制在 17B,配合 int4 量化,可以在單張 H100 80GB 上跑完整推論。這是刻意的工程決策,讓企業無需部署多卡叢集即可使用前沿開源模型。

3. 評估實驗數據與基準測試

Meta 公布的數字在幾個主流 benchmark 上:

測試集 Llama 4 Scout GPT-4o Gemini 2.0 Flash
MMLU 79.6% 85.7% 83.3%
HumanEval 70.7% 90.2% 83.2%
DocVQA 94.4% 92.8% 92.1%

幾點重要觀察:

  • 語言與程式碼能力有明顯差距: HumanEval 70.7% vs GPT-4o 的 90.2%,差距不小。Scout 的定位並不是頂尖程式碼模型。
  • 文件理解相對突出: DocVQA 94.4% 超過 GPT-4o,這與 MoE 架構在特定任務的專家分工有關,也與多模態原生設計的優勢吻合。
  • 10M context 的品質: 宣稱的 10M token context window 目前沒有完整的獨立評測——長 context 的品質衰減問題在所有模型上都存在,Scout 亦不例外。

4. 分析局限性與潛在風險

訓練資料組成不透明:
Llama 4 使用超過 30T token 的訓練資料,多模態資料加入了約 600 億張圖像,但資料來源構成未完整公開。這對企業採購是合規風險——如果訓練資料包含版權內容,模型的商業使用可能面臨法律挑戰。

MoE 的推論複雜度:
單卡可推論不等於「部署簡單」。MoE 架構對推論框架有特殊要求,需要支援稀疏激活的推論引擎(如 vLLM、TensorRT-LLM 的特定版本)。在現有的大多數生產環境中,MoE 模型的部署複雜度高於等參數量的稠密模型。

授權條款的細節:
Llama 4 的授權允許商業使用,但對月活超過 7 億的應用有特殊限制(需要向 Meta 申請額外授權)。大型平台需要特別確認是否在限制範圍內。

多語言能力:
Llama 4 的多語言支援以英語為主,繁體中文、日語等亞洲語言的表現在第三方測試中普遍不及 GPT-4o 或 Claude 系列,企業在台灣市場部署時需要額外驗證。

5. 判斷產業影響與應用價值

對企業私有部署: Scout 是目前最值得評估的「可私有部署前沿模型」選項之一。17B 激活參數在單卡上運行的能力大幅降低了硬體門檻,對有資料主權需求、不願使用雲端 API 的企業尤其吸引。

對開源生態: MoE 架構的開源實現將推動整個社群對稀疏激活推論的基礎設施投入。未來 6 個月內,vLLM、Ollama 等主流推論框架對 MoE 的支援成熟度將直接影響 Llama 4 的實際採用速度。

對競爭格局: Meta 用開源策略在前沿模型能力上縮小差距,意味著 OpenAI 和 Anthropic 純依靠模型能力的競爭護城河正在收窄。長期競爭將更多移向生態系統整合、企業服務、以及模型能力的持續迭代速度。

Friday 的觀點

Llama 4 Scout 最重要的意義不在 benchmark 數字,而在它重新定義了「企業可自主部署的模型」的能力天花板——一年前,這個天花板是 7B 到 13B 的小模型,現在已經上移到接近旗艦閉源模型的水準。繁中市場的企業現在有了一個不依賴 OpenAI 或 Anthropic 的可行選項,但真正的採用障礙從來不是技術,而是部署工程能力和資料品質——這兩件事 Meta 的開源模型都幫不了你。

參考來源