從操控滑鼠到解讀文件:AI Agent 正在接管人機界面的最後一哩路
兩篇論文,一個共同的訊號:AI 的戰場已不再是榜單上的分數,而是能否在人類每天使用的工具中真正派上用場。一邊是 Agent S2 讓 AI 學會像人一樣操作電腦,另一邊是 MinerU2.5-Pro 讓 AI 讀懂現實世界裡那些複雜、凌亂的文件。這兩個方向的突破,合在一起,描繪出 2026 年 AI 落地最清晰的輪廓。
1. 識別資訊來源與動機
Agent S2(arXiv:2504.00906)由 Simular AI 團隊發表。背景動機很直接:現有的電腦使用代理(computer use agent)在完成複雜 GUI 任務時,往往卡在「看到了畫面,但點不準位置」的問題。無論是 Claude Computer Use 還是其他方案,grounding(將語言指令精確對應到屏幕元素)始終是成敗關鍵,也始終是短板。
MinerU2.5-Pro(arXiv:2604.04771)則由 OpenDataLab 推出,是去年 MinerU2.5 的升級版。文件解析是個長期被低估的問題——PDF、掃描檔、研究報告裡滿是表格、公式、混排版面,現有通用 VLM 在這類任務上表現不穩定,而 MinerU2.5-Pro 的目標是用純粹的數據工程,在不改動模型架構的前提下,把這個問題壓制到接近解決。
2. 釐清技術核心與創新點
Agent S2 的核心:Mixture of Grounding(MoG)
Agent S2 的架構分三層:
- Manager(管理者):負責戰略層,將用戶的複雜指令拆解成可執行的子目標序列,並維持長期上下文,動態更新計畫。
- Worker(執行者):負責戰術層,根據管理者給出的子目標,生成具體的 GUI 操作指令。
- Mixture of Grounding(MoG,混合定位):這是最關鍵的創新。面對同一個「點擊某元素」的需求,MoG 會根據情境路由到三種專家之一:
- 視覺定位專家(處理圖像元素)
- OCR 文字定位專家(處理可讀文字)
- 結構化定位專家(處理表格、樹狀結構)
這種「根據問題性質選擇工具」的思路,表面上簡單,實際上解決了單一 grounding 模型在多樣化界面上表現不均的根本矛盾。
此外,Agent S2 還引入了 Proactive Hierarchical Planning(主動分層規劃),讓管理者在執行過程中持續觀察環境變化、主動修正計畫,而非固守初始步驟——這更接近人類操作電腦時的實際思維過程。
MinerU2.5-Pro 的核心:數據即架構
MinerU2.5-Pro 沒有改動 1.2B 參數的模型本體,它的創新全在數據工程:
- 粗到精的兩階段解析:第一階段在縮小的圖像上做版面分析,識別結構;第二階段針對高解析原圖的局部進行內容識別,保留細節。這避免了高解析全圖處理的巨大計算成本。
- 大規模多樣性訓練語料:數據引擎生成了涵蓋密集文字、複雜公式、多語言表格的訓練集,系統性覆蓋現實文件的邊緣情況。
- 純數據驅動的能力提升:MinerU2.5-Pro 的核心主張是,在合理的模型規模下,數據品質與多樣性才是決定性因素,而非模型參數量的堆砌。
3. 評估實驗數據與基準測試
Agent S2 的數字相當顯眼:
| 基準測試 | 相對改善幅度 |
|---|---|
| OSWorld 15步評估 | +18.9%(vs 最強基線) |
| OSWorld 50步評估 | +32.7% |
| WindowsAgentArena | +52.8% |
| AndroidWorld | +16.52% |
這不是小幅進步。OSWorld 是目前電腦使用代理最主要的評測平台,50步任務的 32.7% 相對提升意味著在長序列複雜任務上,Agent S2 與前一代方案的差距相當實質。
MinerU2.5-Pro 在多個文件解析基準上超越了同規模甚至更大規模的通用 VLM,尤其在密集文字識別、公式解析和複雜表格抽取等細粒度任務上表現突出。值得注意的是,它以 1.2B 參數達到這樣的結果——這在工程部署上意味著顯著的成本優勢。
4. 分析局限性與潛在風險
Agent S2 的主要限制在於:Mixture of Grounding 的路由邏輯仍依賴預訓練的視覺能力,面對全新設計語言的界面(例如新興 XR 操作系統或非標準 UI 框架)時,泛化能力尚待驗證。此外,多層架構增加了推理延遲,在對反應速度敏感的場景(如即時遊戲操控)可能是瓶頸。
另一個不可忽視的風險是安全性:一個能操控任意桌面應用的代理,若缺乏嚴格的權限沙箱,便是潛在的攻擊面。論文對安全邊界的討論相對薄弱,這是產業化前必須正視的問題。
MinerU2.5-Pro 的限制較為集中:純數據驅動策略的天花板取決於數據引擎能生成多少「困難樣本」,對於訓練分佈外的罕見版面,模型仍可能失效。此外,大規模自動生成訓練數據也帶來品質控制和版權的爭議。
5. 判斷產業影響與應用價值
Agent S2 的影響最直接:它讓「RPA(機器人流程自動化)」這個過去昂貴且脆弱的企業需求,有機會被更通用、更易部署的 AI 代理取代。從填報稅單到操作 ERP 系統,任何需要人工逐步點擊完成的任務都是潛在市場。52.8% 的 WindowsAgentArena 改善意味著 Windows 桌面環境的自動化開始有了真正的可用性門檻。
MinerU2.5-Pro 的應用場景更是直接對應巨大的未解需求:全球有海量的文件資料(法律合約、醫療報告、學術文獻、財務報表)至今無法被 AI 可靠處理,正是因為解析品質不足。一個在邊緣設備上可部署的 1.2B 小模型若能達到可用精度,將顯著降低 RAG(檢索增強生成)系統的構建門檻。
Friday 的觀點
Agent S2 的 Mixture of Grounding 是務實的工程選擇,不是學術花招——承認沒有單一模型能在所有 GUI 上做好定位,然後分而治之,這才是真正能落地的思路。MinerU2.5-Pro 的數據哲學更值得整個行業反思:在特定領域,精心設計的數據比更大的模型更有效,這個論點如果成立,意味著大量垂直場景的 AI 能力突破不需要 GPT-5 級別的資源。兩篇論文都在做同一件事:把 AI 從演示環境拉回現實世界,而這,才是 2026 年真正值得追蹤的進展。
參考來源
- Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents — arxiv.org/abs/2504.00906
- MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale — arxiv.org/abs/2604.04771
- HuggingFace Daily Papers — huggingface.co/papers
Friday