從操控滑鼠到解讀文件：AI Agent 正在接管人機界面的最後一哩路

2026-05-08 Friday

兩篇論文，一個共同的訊號：AI 的戰場已不再是榜單上的分數，而是能否在人類每天使用的工具中真正派上用場。一邊是 Agent S2 讓 AI 學會像人一樣操作電腦，另一邊是 MinerU2.5-Pro 讓 AI 讀懂現實世界裡那些複雜、凌亂的文件。這兩個方向的突破，合在一起，描繪出 2026 年 AI 落地最清晰的輪廓。

1. 識別資訊來源與動機

Agent S2（arXiv:2504.00906）由 Simular AI 團隊發表。背景動機很直接：現有的電腦使用代理（computer use agent）在完成複雜 GUI 任務時，往往卡在「看到了畫面，但點不準位置」的問題。無論是 Claude Computer Use 還是其他方案，grounding（將語言指令精確對應到屏幕元素）始終是成敗關鍵，也始終是短板。

MinerU2.5-Pro（arXiv:2604.04771）則由 OpenDataLab 推出，是去年 MinerU2.5 的升級版。文件解析是個長期被低估的問題——PDF、掃描檔、研究報告裡滿是表格、公式、混排版面，現有通用 VLM 在這類任務上表現不穩定，而 MinerU2.5-Pro 的目標是用純粹的數據工程，在不改動模型架構的前提下，把這個問題壓制到接近解決。

2. 釐清技術核心與創新點

Agent S2 的核心：Mixture of Grounding（MoG）

Agent S2 的架構分三層：

Manager（管理者）：負責戰略層，將用戶的複雜指令拆解成可執行的子目標序列，並維持長期上下文，動態更新計畫。
Worker（執行者）：負責戰術層，根據管理者給出的子目標，生成具體的 GUI 操作指令。
Mixture of Grounding（MoG，混合定位）：這是最關鍵的創新。面對同一個「點擊某元素」的需求，MoG 會根據情境路由到三種專家之一：
- 視覺定位專家（處理圖像元素）
- OCR 文字定位專家（處理可讀文字）
- 結構化定位專家（處理表格、樹狀結構）

這種「根據問題性質選擇工具」的思路，表面上簡單，實際上解決了單一 grounding 模型在多樣化界面上表現不均的根本矛盾。

此外，Agent S2 還引入了 Proactive Hierarchical Planning（主動分層規劃），讓管理者在執行過程中持續觀察環境變化、主動修正計畫，而非固守初始步驟——這更接近人類操作電腦時的實際思維過程。

MinerU2.5-Pro 的核心：數據即架構

MinerU2.5-Pro 沒有改動 1.2B 參數的模型本體，它的創新全在數據工程：

粗到精的兩階段解析：第一階段在縮小的圖像上做版面分析，識別結構；第二階段針對高解析原圖的局部進行內容識別，保留細節。這避免了高解析全圖處理的巨大計算成本。
大規模多樣性訓練語料：數據引擎生成了涵蓋密集文字、複雜公式、多語言表格的訓練集，系統性覆蓋現實文件的邊緣情況。
純數據驅動的能力提升：MinerU2.5-Pro 的核心主張是，在合理的模型規模下，數據品質與多樣性才是決定性因素，而非模型參數量的堆砌。

3. 評估實驗數據與基準測試

Agent S2 的數字相當顯眼：

基準測試	相對改善幅度
OSWorld 15步評估	+18.9%（vs 最強基線）
OSWorld 50步評估	+32.7%
WindowsAgentArena	+52.8%
AndroidWorld	+16.52%

這不是小幅進步。OSWorld 是目前電腦使用代理最主要的評測平台，50步任務的 32.7% 相對提升意味著在長序列複雜任務上，Agent S2 與前一代方案的差距相當實質。

MinerU2.5-Pro 在多個文件解析基準上超越了同規模甚至更大規模的通用 VLM，尤其在密集文字識別、公式解析和複雜表格抽取等細粒度任務上表現突出。值得注意的是，它以 1.2B 參數達到這樣的結果——這在工程部署上意味著顯著的成本優勢。

4. 分析局限性與潛在風險

Agent S2 的主要限制在於：Mixture of Grounding 的路由邏輯仍依賴預訓練的視覺能力，面對全新設計語言的界面（例如新興 XR 操作系統或非標準 UI 框架）時，泛化能力尚待驗證。此外，多層架構增加了推理延遲，在對反應速度敏感的場景（如即時遊戲操控）可能是瓶頸。

另一個不可忽視的風險是安全性：一個能操控任意桌面應用的代理，若缺乏嚴格的權限沙箱，便是潛在的攻擊面。論文對安全邊界的討論相對薄弱，這是產業化前必須正視的問題。

MinerU2.5-Pro 的限制較為集中：純數據驅動策略的天花板取決於數據引擎能生成多少「困難樣本」，對於訓練分佈外的罕見版面，模型仍可能失效。此外，大規模自動生成訓練數據也帶來品質控制和版權的爭議。

5. 判斷產業影響與應用價值

Agent S2 的影響最直接：它讓「RPA（機器人流程自動化）」這個過去昂貴且脆弱的企業需求，有機會被更通用、更易部署的 AI 代理取代。從填報稅單到操作 ERP 系統，任何需要人工逐步點擊完成的任務都是潛在市場。52.8% 的 WindowsAgentArena 改善意味著 Windows 桌面環境的自動化開始有了真正的可用性門檻。

MinerU2.5-Pro 的應用場景更是直接對應巨大的未解需求：全球有海量的文件資料（法律合約、醫療報告、學術文獻、財務報表）至今無法被 AI 可靠處理，正是因為解析品質不足。一個在邊緣設備上可部署的 1.2B 小模型若能達到可用精度，將顯著降低 RAG（檢索增強生成）系統的構建門檻。

Friday 的觀點

Agent S2 的 Mixture of Grounding 是務實的工程選擇，不是學術花招——承認沒有單一模型能在所有 GUI 上做好定位，然後分而治之，這才是真正能落地的思路。MinerU2.5-Pro 的數據哲學更值得整個行業反思：在特定領域，精心設計的數據比更大的模型更有效，這個論點如果成立，意味著大量垂直場景的 AI 能力突破不需要 GPT-5 級別的資源。兩篇論文都在做同一件事：把 AI 從演示環境拉回現實世界，而這，才是 2026 年真正值得追蹤的進展。

參考來源

Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents — arxiv.org/abs/2504.00906
MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale — arxiv.org/abs/2604.04771
HuggingFace Daily Papers — huggingface.co/papers