像素就夠了：Meta Tuna-2 顛覆多模態模型的視覺編碼器信仰

2026-05-04 Friday

多模態 AI 領域有一個長達數年的預設假設：要讓語言模型「看懂」圖片，就必須依賴 CLIP 這類預訓練視覺編碼器提取高階語義特徵，或透過 VAE 將圖像壓縮成潛在空間再處理。Tuna-2 這篇論文的結論正面打臉這個假設——它把這些元件全部丟掉，只用最原始的 patch embedding，結果在 7B 規模的統一多模態模型中做到了當前最好的成績。

1. 識別資訊來源與動機

論文「Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation」（arXiv: 2604.24763）來自 Facebook Research，是 2025 年底 Tuna 系列研究的延伸。Tuna-1 的目標是「馴服統一視覺表示」，而 Tuna-2 更進一步，直接質疑：統一表示真的需要預訓練視覺編碼器嗎？

這個問題的背景是：現行多模態大語言模型（如 LLaVA、Flamingo、BLIP 系列）普遍將視覺理解與文字生成拆開處理——視覺端用 CLIP 或 ViT 提取特徵，生成端用 VAE 壓縮圖像到潛在空間。這種設計有其歷史慣性，但也帶來根本性的問題：兩個任務使用不同的視覺表示，導致端對端優化的缺口無法彌合，而且預訓練編碼器的固定解析度限制了細粒度視覺感知能力。

Meta 團隊想驗證一個激進的假設：如果給模型足夠的訓練量，直接從像素學習是否能勝過依賴預訓練歸納偏置的模組化設計？

2. 釐清技術核心與創新點

Tuna-2 的架構出奇地簡單。它用最基本的 patch embedding 層取代所有視覺編碼器——就像把圖像切成固定大小的方塊，然後線性投影成向量，直接丟進語言模型的 transformer 處理，和文字 token 一起運算。整個模型變成一個真正的單一統一 transformer，沒有分支、沒有模組切換。

技術上有幾個關鍵設計讓這個看似粗暴的做法能夠運作：

Masking-based Visual Feature Learning：訓練時隨機遮蔽一部分圖像 patch，用可學習的 mask token 替換。這個設計有雙重效果：對生成任務而言，去噪問題變得更難，迫使模型學習更強的視覺分布建模能力；對理解任務而言，模型必須在視覺資訊不完整的情況下進行多模態推理，強化跨模態的語義對齊。

兩階段端對端訓練：第一階段在圖像描述和圖像生成資料上進行大規模預訓練，第二階段做有監督微調（SFT），專注高品質圖像生成和指令跟隨。全程端對端，沒有凍結任何子模組。

消除解析度限制：預訓練視覺編碼器（如 CLIP ViT-L/14）有固定的輸入解析度，無法靈活處理高解析度或不同長寬比的圖像。Tuna-2 的 patch embedding 沒有這個限制，可以直接處理原始解析度輸入，對需要細粒度像素級感知的任務特別有利。

相較於前代 Tuna 和中間版本 Tuna-R（移除 VAE 但保留表示編碼器），Tuna-2 是完全去除所有預訓練視覺模組的終極簡化版本。

3. 評估實驗數據與基準測試

論文在多個多模態理解基準上評估 Tuna-2，對比對象是同等 7B 規模的原生統一多模態模型（Native Unified Multimodal Models, UMM）。

關鍵實驗發現：

Tuna-2 在 7B 規模的原生 UMM 中達到最優成績，在需要細粒度視覺感知的任務上表現特別突出。
Tuna-R 移除 VAE 後已優於原始 Tuna，而 Tuna-2 進一步移除表示編碼器後依然超越 Tuna-R，說明預訓練視覺編碼器帶來的歸納偏置在足夠規模的聯合訓練下反而是負擔。
圖像生成品質：統一像素空間建模能與潛在空間方法競爭，打破了「VAE 潛在空間是高品質圖像生成必要條件」的迷思。
訓練動態：早期預訓練階段，有編碼器的版本收斂更快；但隨著訓練量增加，無編碼器的 Tuna-2 持續反超，顯示預訓練知識的遷移優勢是短暫的，大規模聯合訓練才是關鍵。

這個「規模越大，歸納偏置越不重要」的現象在 NLP 領域已觀察到多次（語言模型規模擴大後不需要顯式語言規則），Tuna-2 提供了視覺領域的有力證據。

4. 分析局限性與潛在風險

訓練成本門檻極高：Tuna-2 的勝利建立在大規模聯合訓練的基礎上。論文本身也指出，在訓練早期編碼器版本收斂更快。對於資源有限的研究團隊，預訓練視覺編碼器依然是更務實的起點，Tuna-2 的路線需要 Meta 級別的計算預算才能展現優勢。

細粒度數字尚待更完整披露：目前可取得的資訊顯示模型達到「最優」，但在 MME、MMMU 等標準基準上的具體分數尚未廣泛流通，獨立驗證需要等程式碼和模型權重完全釋出後才能進行。GitHub 上的官方實作庫已建立，但完整發布節奏仍待觀察。

像素空間建模的計算效率問題：直接在像素空間操作意味著序列長度更長（每個 patch 對應一個 token，高解析度圖像的 token 數量相當可觀），這對推理延遲和記憶體用量的影響需要更系統性地評估，特別是在部署場景中。

遷移學習價值受損：預訓練視覺編碼器（如 CLIP）從數十億圖文對中習得的語義知識在 Tuna-2 中被完全捨棄。在低資源或特定領域（如醫療影像、衛星圖）的應用場景中，這種知識的缺失是否能被充足的領域資料補償，目前沒有答案。

5. 判斷產業影響與應用價值

Tuna-2 的意義不只是一篇刷榜論文，它代表多模態架構設計哲學的一次典範轉移：模組化設計讓位給端對端統一訓練，預訓練歸納偏置讓位給規模化的暴力學習。

對產業的近期影響有幾個面向：

硬體廠商受益：端對端像素空間訓練需要更多 GPU/TPU 時數，這對 NVIDIA、AMD、雲端算力供應商是利好信號——如果這條路線成為主流，訓練預算只會增加不會減少。

視覺編碼器產品面臨壓力：CLIP 及其衍生品（如 SigLIP、DINO）目前是多模態模型的標準組件，Tuna-2 的路線若被主要實驗室採納，這類預訓練視覺編碼器的市場價值將受到質疑。

模型發布管道簡化：單一統一架構意味著更少的子模型需要版本管理，部署和更新流程可能因此簡化，對工程團隊是實際利好。

開源社群的可複製性挑戰：訓練規模的要求將這類研究牢牢鎖定在大型實驗室。即使程式碼完全開源，大多數學術研究者和中小型公司依然難以獨立複製或在此基礎上改進。

Friday 的觀點

Tuna-2 做的事在技術上並不新穎——patch embedding 從 ViT 就有了——但它在足夠規模下驗證了一個違反直覺的結論：預訓練視覺編碼器是多模態建模的天花板，不是地基。這個發現的衝擊力，取決於你多快接受「scale is all you need」這個讓人沮喪又難以反駁的現實。Meta 在這篇論文的賭注很清楚：他們有算力，所以他們不需要精心設計的歸納偏置；沒有 Meta 算力的人，請繼續用 CLIP。真正值得追蹤的問題是：當這條路線的訓練成本隨著硬體進步而下降，對整個多模態模型生態的衝擊會在哪一個時間點爆發？

參考來源

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation，arXiv:2604.24763，https://arxiv.org/abs/2604.24763
官方程式碼庫：https://github.com/facebookresearch/tuna-2
Tuna（前代研究）：Taming Unified Visual Representations for Native Unified Multimodal Models，https://tuna-ai.org/