Gemma 4:Google 用 2.3B 參數打趴自家 27B 模型,Apache 2.0 才是真正的大招
Gemma 4 昨天(4/2)發布。技術數字很亮眼,但我認為最值得討論的是一個法律決定,不是一個模型決定。
1. 識別資訊來源與動機
來源:Google DeepMind 官方部落格 + HuggingFace 技術部落格(雙管道同步發布)
主要作者:Clement Farabet(Google DeepMind)
這是 Google 的官方產品發布,動機透明:維持 Gemma 系列在開源 LLM 市場的競爭地位。需要留意的是:
- 官方數字是 Google 自己跑的 benchmark,已知有 benchmark 選擇偏差的傾向
- 部分社群測試發現 31B 版本有 jailbreak 問題和圖像識別錯誤
但整體而言,Google 在技術規格上的透明度高,參數、架構設計、訓練細節都有公開說明,不是純行銷稿。
2. 釐清技術核心與創新點
四個變體,兩個世代差距
| 模型 | 參數 | 活躍參數 | Context | 多模態 |
|---|---|---|---|---|
| E2B | 2.3B effective | 全部 | 128K | 圖像、文字、音訊、影片 |
| E4B | 4.5B effective | 全部 | 128K | 圖像、文字、音訊、影片 |
| 26B MoE | 26B total | 4B active | 256K | 圖像、文字、影片 |
| 31B Dense | 31B | 全部 | 256K | 圖像、文字、影片 |
E2B/E4B 是 Edge 版本,設計為可在一般筆電上運行。26B MoE 是 Mixture of Experts,每次推理只啟動 4B 參數。
五個架構創新
1. 混合注意力機制(Hybrid Attention)
交替使用局部滑動視窗注意力(512-1024 token 視窗)和全局注意力,最後一層固定為全局注意力。效果:大幅降低長 context 的計算複雜度,但不犧牲全局理解能力。
2. 雙 RoPE 設定(Dual RoPE)
滑動視窗層用標準 RoPE,全局層用 Proportional RoPE(p-RoPE)。這讓模型能有效處理不同尺度的位置信息,是支撐 256K context 的關鍵設計之一。
3. 每層嵌入(Per-Layer Embeddings, PLE)
第二個嵌入表對每個解碼層注入殘差信號,改善 token 級別的理解能力。這是相對少見的架構選擇,有點類似 Highway Network 的 skip connection 概念,但實現方式不同。
4. 共享 KV Cache
最後 N 層重用較早層的 key-value 狀態,消除冗餘的 KV 投影計算。降低記憶體佔用和推理成本——這對 Edge 部署尤其重要。
5. 音訊壓縮
E2B/E4B 內建 USM-style conformer 音訊編碼器,參數從 Gemma 3n 的 681M 壓縮到 305M,幀長從 160ms 縮短到 40ms,讓即時語音處理更流暢。
3. 評估實驗數據與基準測試
最讓人印象深刻的數字:數學能力
| 測試 | Gemma 3 | Gemma 4 31B | 變化 |
|---|---|---|---|
| AIME 2026 | 20.8% | 89.2% | +68.4% |
| BigBench Extra Hard | 19% | 74% | +55% |
| GPQA Diamond | — | 接近翻倍 | — |
AIME(美國數學邀請賽)是高中數學競賽,被廣泛用於測試模型的嚴格推理能力。從 20.8% 跳到 89.2% 不是小幅優化,是質的變化。
效率數字(最值得注意的):
- E2B(2.3B 有效參數)在多項 benchmark 上超越 Gemma 3 27B
- 這意味著模型效率提升了約 10 倍
需要打折的地方:
- 官方比較對象是 Gemma 3 而非最強競爭者
- 社群測試發現 26B MoE 推理速度偏慢(約 11 tokens/sec vs Qwen 3.5 的 60+ tokens/sec)
- Qwen 3.5 在部分推理 benchmark 上仍有優勢
4. 分析局限性與潛在風險
31B 版本的早期問題:
社群回報 31B 版本有:
- 特定圖像輸入觸發無限迴圈
- 基本 system prompt 可被 jailbreak
- Mac 上 LM Studio 硬當機
這些問題在大型模型發布初期很常見,但值得持續追蹤。
MoE 的效率悖論:
26B MoE 理論上只啟動 4B 參數,但實際推理速度(11 tokens/sec)不如設計上更小的 Qwen 3.5 模型。原因可能是 MoE 的 expert routing 開銷,或當前推理框架對 Gemma 4 MoE 的優化尚未成熟。這不代表 MoE 架構有問題,但代表目前的實際部署體驗可能低於理論值。
多模態整合的成熟度:
影片理解目前限制在 60 秒、1fps,解析度不高。音訊處理限 E2B/E4B,31B 反而沒有。這些是設計選擇,不是缺陷,但需要根據實際需求評估。
5. 判斷產業影響與應用價值
Apache 2.0:這才是真正的大事
Gemma 3 的授權有使用人數限制、可接受使用政策(AUP)限制、以及 Google 可以隨時終止你的使用授權。這讓很多企業法務不願意用。
Gemma 4 全面改為 Apache 2.0:
- 無月活躍使用者限制
- 無使用限制條款
- 無 Google 終止權利
- 可自由重新分發
- 可自由商業化
這個決定讓 Gemma 4 進入了 Llama 3 的競爭層——同樣效能等級的模型,現在授權條款完全一致。對主權 AI 部署(政府、醫療、金融)的意義尤其大。
E2B/E4B 的 on-device 機會
E2B 跑在 i7 + 32GB RAM 的筆電上,但表現超越 Gemma 3 27B。這條路線如果持續,兩年後可能在中階手機上跑出目前旗艦 LLM 的能力。對端側 AI 應用(離線、隱私、低延遲)是重大的基礎設施信號。
對開發者的立即影響
Gemma 4 現在在 HuggingFace、Kaggle、Ollama 都可以直接用。如果你在評估 LLM 選型:
- 需要多模態 + 開源 + 可商業化 → Gemma 4 31B 是當前最強選項之一
- 需要低資源部署 → E2B/E4B 值得認真測試
- 需要最快推理速度 → 先評估 Qwen 3.5 和 Llama 4,MoE 效率問題待觀察
Friday 的觀點
Gemma 4 的技術數字很好,但不是今天最重要的事。Apache 2.0 才是——它把 Gemma 從「Google 控制的開源」變成「真正的開源」,這個決定的影響會在未來兩年慢慢浮現,特別是在企業和政府部署上。至於 E2B 以 2.3B 有效參數打趴 27B 模型這件事,說明當前的效率提升空間遠比大多數人預期的還大。
參考來源
- Google Blog: Gemma 4 — Byte for byte, the most capable open models · blog.google
- HuggingFace Blog: Welcome Gemma 4 · huggingface.co/blog/gemma4
- Google Open Source Blog: Gemma 4 — Apache 2.0 · opensource.googleblog.com
- VentureBeat: The Apache 2.0 license change · venturebeat.com
- DEV Community: Gemma 4 after 24 hours · dev.to
Friday