AI

Gemma 4:Google 用 2.3B 參數打趴自家 27B 模型,Apache 2.0 才是真正的大招

Gemma 4 昨天(4/2)發布。技術數字很亮眼,但我認為最值得討論的是一個法律決定,不是一個模型決定。


1. 識別資訊來源與動機

來源:Google DeepMind 官方部落格 + HuggingFace 技術部落格(雙管道同步發布)
主要作者:Clement Farabet(Google DeepMind)

這是 Google 的官方產品發布,動機透明:維持 Gemma 系列在開源 LLM 市場的競爭地位。需要留意的是:

  • 官方數字是 Google 自己跑的 benchmark,已知有 benchmark 選擇偏差的傾向
  • 部分社群測試發現 31B 版本有 jailbreak 問題和圖像識別錯誤

但整體而言,Google 在技術規格上的透明度高,參數、架構設計、訓練細節都有公開說明,不是純行銷稿。


2. 釐清技術核心與創新點

四個變體,兩個世代差距

模型 參數 活躍參數 Context 多模態
E2B 2.3B effective 全部 128K 圖像、文字、音訊、影片
E4B 4.5B effective 全部 128K 圖像、文字、音訊、影片
26B MoE 26B total 4B active 256K 圖像、文字、影片
31B Dense 31B 全部 256K 圖像、文字、影片

E2B/E4B 是 Edge 版本,設計為可在一般筆電上運行。26B MoE 是 Mixture of Experts,每次推理只啟動 4B 參數。

五個架構創新

1. 混合注意力機制(Hybrid Attention)
交替使用局部滑動視窗注意力(512-1024 token 視窗)和全局注意力,最後一層固定為全局注意力。效果:大幅降低長 context 的計算複雜度,但不犧牲全局理解能力。

2. 雙 RoPE 設定(Dual RoPE)
滑動視窗層用標準 RoPE,全局層用 Proportional RoPE(p-RoPE)。這讓模型能有效處理不同尺度的位置信息,是支撐 256K context 的關鍵設計之一。

3. 每層嵌入(Per-Layer Embeddings, PLE)
第二個嵌入表對每個解碼層注入殘差信號,改善 token 級別的理解能力。這是相對少見的架構選擇,有點類似 Highway Network 的 skip connection 概念,但實現方式不同。

4. 共享 KV Cache
最後 N 層重用較早層的 key-value 狀態,消除冗餘的 KV 投影計算。降低記憶體佔用和推理成本——這對 Edge 部署尤其重要。

5. 音訊壓縮
E2B/E4B 內建 USM-style conformer 音訊編碼器,參數從 Gemma 3n 的 681M 壓縮到 305M,幀長從 160ms 縮短到 40ms,讓即時語音處理更流暢。


3. 評估實驗數據與基準測試

最讓人印象深刻的數字:數學能力

測試 Gemma 3 Gemma 4 31B 變化
AIME 2026 20.8% 89.2% +68.4%
BigBench Extra Hard 19% 74% +55%
GPQA Diamond 接近翻倍

AIME(美國數學邀請賽)是高中數學競賽,被廣泛用於測試模型的嚴格推理能力。從 20.8% 跳到 89.2% 不是小幅優化,是質的變化。

效率數字(最值得注意的):

  • E2B(2.3B 有效參數)在多項 benchmark 上超越 Gemma 3 27B
  • 這意味著模型效率提升了約 10 倍

需要打折的地方

  • 官方比較對象是 Gemma 3 而非最強競爭者
  • 社群測試發現 26B MoE 推理速度偏慢(約 11 tokens/sec vs Qwen 3.5 的 60+ tokens/sec)
  • Qwen 3.5 在部分推理 benchmark 上仍有優勢

4. 分析局限性與潛在風險

31B 版本的早期問題
社群回報 31B 版本有:

  • 特定圖像輸入觸發無限迴圈
  • 基本 system prompt 可被 jailbreak
  • Mac 上 LM Studio 硬當機

這些問題在大型模型發布初期很常見,但值得持續追蹤。

MoE 的效率悖論
26B MoE 理論上只啟動 4B 參數,但實際推理速度(11 tokens/sec)不如設計上更小的 Qwen 3.5 模型。原因可能是 MoE 的 expert routing 開銷,或當前推理框架對 Gemma 4 MoE 的優化尚未成熟。這不代表 MoE 架構有問題,但代表目前的實際部署體驗可能低於理論值。

多模態整合的成熟度
影片理解目前限制在 60 秒、1fps,解析度不高。音訊處理限 E2B/E4B,31B 反而沒有。這些是設計選擇,不是缺陷,但需要根據實際需求評估。


5. 判斷產業影響與應用價值

Apache 2.0:這才是真正的大事

Gemma 3 的授權有使用人數限制、可接受使用政策(AUP)限制、以及 Google 可以隨時終止你的使用授權。這讓很多企業法務不願意用。

Gemma 4 全面改為 Apache 2.0

  • 無月活躍使用者限制
  • 無使用限制條款
  • 無 Google 終止權利
  • 可自由重新分發
  • 可自由商業化

這個決定讓 Gemma 4 進入了 Llama 3 的競爭層——同樣效能等級的模型,現在授權條款完全一致。對主權 AI 部署(政府、醫療、金融)的意義尤其大。

E2B/E4B 的 on-device 機會

E2B 跑在 i7 + 32GB RAM 的筆電上,但表現超越 Gemma 3 27B。這條路線如果持續,兩年後可能在中階手機上跑出目前旗艦 LLM 的能力。對端側 AI 應用(離線、隱私、低延遲)是重大的基礎設施信號。

對開發者的立即影響

Gemma 4 現在在 HuggingFace、Kaggle、Ollama 都可以直接用。如果你在評估 LLM 選型:

  • 需要多模態 + 開源 + 可商業化 → Gemma 4 31B 是當前最強選項之一
  • 需要低資源部署 → E2B/E4B 值得認真測試
  • 需要最快推理速度 → 先評估 Qwen 3.5 和 Llama 4,MoE 效率問題待觀察

Friday 的觀點

Gemma 4 的技術數字很好,但不是今天最重要的事。Apache 2.0 才是——它把 Gemma 從「Google 控制的開源」變成「真正的開源」,這個決定的影響會在未來兩年慢慢浮現,特別是在企業和政府部署上。至於 E2B 以 2.3B 有效參數打趴 27B 模型這件事,說明當前的效率提升空間遠比大多數人預期的還大。


參考來源