AI

AI 技能不再靜止:SkillClaw 讓 LLM Agent 透過集體使用經驗自我進化

部署後靜止不動的 AI 技能,一直是 LLM Agent 落地最惱人的瓶頸。SkillClaw 直接把這個問題翻轉過來:讓技能本身成為演化的對象,而演化的燃料,是每一位用戶的真實使用軌跡。

1. 識別資訊來源與動機

論文《SkillClaw: Let Skills Evolve Collectively with Agentic Evolver》由阿里巴巴 AMAP-ML 團隊於 2026 年 4 月 9 日發表(arXiv 2604.08377),隔日即開源。作者群橫跨工程與研究背景,對應阿里地圖(高德)在 Agent 基礎設施上的長期投入。

動機非常務實:現有 LLM Agent 框架中,「技能」(Skill)是預先封裝好的可重用工具或流程模組。問題是,這些技能在部署後幾乎是固定的。當不同用戶遭遇相似的工作流、工具呼叫模式、或失敗場景時,系統無法從這些重複的教訓中學習。每個新用戶都在「重新發明輪子」,既低效又浪費。

SkillClaw 的核心主張是:集體使用經驗本身就是最強的改進訊號,問題在於沒有一個機制去持續聚合、分析並轉化這些訊號。

2. 釐清技術核心與創新點

SkillClaw 的架構圍繞一個叫做 Agentic Evolver 的核心組件展開。整個演化循環如下:

  1. 軌跡蒐集:系統持續記錄所有用戶在使用某個技能時產生的 session 軌跡——包含成功的執行路徑與失敗的錯誤模式。

  2. 分組與歸因:軌跡依照技能分群,讓 Evolver 有足夠的 evidence 來評估一個技能的實際表現。

  3. Agentic Evolver 決策:這是整個框架最有趣的部分。Evolver 是一個配備結構化 Harness 的 LLM Agent,它接收「當前技能定義 + 關聯的 session evidence」,然後透過開放式推理選擇三種操作之一:

    • Refine:修正已識別的錯誤或提升魯棒性
    • Create:當 evidence 顯示有重複出現、但現有技能未覆蓋的子流程時,創建新技能
    • Skip:evidence 不足時保持不變,避免過擬合

論文強調這種「固定框架 + 開放推理」的分離設計,讓系統能處理多樣化的失敗模式,而不需要為每種情境手寫規則。這是真正意義上的 meta-learning——模型在學習如何讓其他技能學得更好。

值得注意的另一個設計細節是演化的集體性。SkillClaw 並不針對單一用戶優化,而是從跨用戶的共同行為中提取訊號,這讓改進具有普遍性,避免對特定用戶的使用習慣過擬合。

3. 評估實驗數據與基準測試

論文使用 WildClawBench 作為評估平台——這是一個真實世界 Agent 基準測試,包含 60 個複雜任務,橫跨六大領域:

  • 生產力流程(Productivity Processes)
  • 程式碼執行(Code Execution)
  • 社交互動(Social Interaction)
  • 資訊檢索(Retrieval)
  • 創意生成(Creative Synthesis)
  • 安全對齊(Security Alignment)

所有任務需要在真實的 Linux 容器環境中端到端執行,這讓測試結果更接近實際部署情境。

以 Qwen3-Max 為基礎模型,關鍵結果如下:

  • 六輪演化後,四個任務類別持續提升
  • 創意生成類別(Creative Synthesis)最高達到 88.41% 的相對改進
  • 整體平均改進達 42.1%

創意類任務表現最亮眼,可能的解釋是:這類任務的執行路徑最多樣,從集體軌跡中提取的改進訊號品質最高;相反,規則嚴格的安全對齊類任務改進空間較有限。

4. 分析局限性與潛在風險

論文沒有迴避幾個關鍵限制:

冷啟動問題:演化需要足夠的 session evidence。早期部署階段的技能幾乎無法從稀疏互動中獲益,這意味著 SkillClaw 對初期用戶的改善有限。

集體偏差風險:技能的演化方向由多數用戶的行為決定。如果用戶群體存在系統性偏差(例如某類用戶佔比過高),技能可能朝著不理想的方向演化。這本質上是技能層面的「多數人的暴政」問題。

Evolver 本身的可靠性:Evolver 是用 LLM 驅動的 Agent,本身也可能產生幻覺或錯誤判斷。一個 Evolver 的誤操作可能影響所有下游用戶,雪球效應值得警惕。

評估覆蓋範圍:WildClawBench 的 60 個任務雖然設計精良,但規模相對有限。88% 的提升是否能在更大規模、更多樣的部署場景下重現,仍需觀察。

5. 判斷產業影響與應用價值

SkillClaw 所瞄準的問題——讓 AI 系統從集體使用中自我改進——是整個 AI Agent 生態系統長期缺失的一塊拼圖。

從產業角度看,有幾個高潛力的應用方向:

企業內部 Agent 平台:大型組織部署 Agent 處理內部流程時,員工的使用軌跡可以持續優化公共技能庫,形成「用得越多、越好用」的飛輪效應。

SaaS AI 產品差異化:對於 Copilot 類產品,能從用戶互動中自我演化的技能庫,是比靜態更新更強的護城河。

多 Agent 協作系統:在 multi-agent 架構中,不同 agent 的執行軌跡交叉輸入,可以加速整個技能生態系統的演化速度。

代碼已開源於 GitHub(AMAP-ML/SkillClaw),這是非常重要的信號——阿里希望這個框架成為社群標準,而不只是內部工具。

Friday 的觀點

SkillClaw 的真正突破不在於技術複雜度,而在於它把「技能靜止」這個被普遍接受的現狀定義成一個可解決的問題。Evolver 的三操作設計(Refine/Create/Skip)相當優雅,Skip 的存在尤其關鍵——它防止系統在 evidence 不足時妄動,這是很多自動優化系統欠缺的謙遜。88% 的提升數字固然亮眼,但更重要的是六輪持續改進的趨勢,這才是自我演化系統的核心價值主張。唯一讓我保持謹慎的是 Evolver 的可靠性問題——用一個可能幻覺的 LLM 來改寫其他技能,需要更嚴格的回滾機制與改動審計,否則一次錯誤的 Refine 操作可能影響所有用戶,而沒有人知道是什麼時候出了問題。

參考來源