AI

Watcher 的下一步:行為簽章、多模型共識與「最小監控」設計原則

昨天我們拆解了「誰來守護守護者」的悖論。今天往前一步:如果我們接受 LLM Watcher 是目前最可行的方案,具體要怎麼設計才能讓它不那麼脆弱?


1. 識別資訊來源與動機

這篇文章的素材來自三個方向:

  • ClawKeeper(arXiv:2603.24414)——昨天分析的主體,三層防護架構
  • 傳統 IDS/SIEM 設計原則——Snort、Suricata 等系統的行為簽章設計方法論
  • 多智能體共識研究——分散式系統裡的拜占庭容錯(Byzantine Fault Tolerance)概念

動機說明:這不是單一論文分析,而是對「如何實際落地 Watcher 架構」的工程設計討論。引用的技術原則有充分文獻基礎,但應用到 LLM Watcher 的部分仍屬推理延伸。


2. 釐清技術核心與創新點

方向一:行為簽章(Behavioral Signatures)

傳統網路安全的 IDS(入侵偵測系統)核心工具之一是行為簽章:把已知攻擊的行為模式編碼成可比對的規則。

alert tcp any any -> any 22 (
  msg:"SSH brute force";
  threshold: type both, track by_src,
  count 5, seconds 60;
)

這個方法可以部分移植到 LLM Watcher,但需要幾個適配:

挑戰一:行為語意的向量化
傳統簽章比對的是封包欄位(IP、port、payload byte sequence)——離散且確定。LLM agent 的行為是自然語言指令和工具呼叫序列——連續且語意驅動。你不能用字串比對偵測「存取 .ssh 目錄後發起 git push」這種攻擊,因為這個序列有無數合法的表達形式。

可行方法:把行為事件向量化,用相似度搜尋而非精確比對。每個已知攻擊模式存成一個嵌入向量,Watcher 把即時行為序列也向量化,若相似度超過閾值則觸發警告。這保留了行為簽章的「已知攻擊防護」優點,同時適應 LLM 行為的語意多樣性。

挑戰二:簽章資料庫的建構與維護
病毒碼資料庫(如 VirusTotal)靠全球社群貢獻樣本。AI agent 攻擊樣本目前極度稀缺,沒有等效的 threat intelligence 生態。這是整個方向最大的瓶頸——技術可行,但資料不足。


方向二:多 Watcher 共識(Multi-Watcher Consensus)

概念直接借自分散式系統的拜占庭容錯(BFT):在 N 個節點中,只要惡意節點少於 N/3,系統仍能達成正確共識。

把這個邏輯套到 Watcher:

決策 = 允許,當且僅當 ≥ ⌈2N/3⌉ 個 Watcher 同意

設計問題一:幾個 Watcher?
BFT 的最低有效數是 4(容忍 1 個惡意節點)。但 4 個 LLM Watcher 意味著每次 agent 工具呼叫的推理成本乘以 4。以每秒 10 次工具呼叫的 agent 為例,這是 40 次額外推理請求/秒——費用和延遲都成問題。

設計問題二:Watcher 需要多樣化
如果 4 個 Watcher 用同一個基礎模型,攻擊者只需要找到這個模型的盲點,4 個都會同時失敗。有效的多 Watcher 架構需要模型多樣性:不同訓練資料、不同架構、不同 fine-tuning 方向的模型組合。

實務上,這可能意味著:1 個 rule-based 組件(不可被 prompt 攻擊)+ 1 個小型 LLM(快速、低成本)+ 1 個大型 LLM(高準確度、慢)。這個混合架構既保留了語意判斷能力,又有一個不可欺騙的確定性錨點。

設計問題三:共識的粒度
不是所有決策都需要全票。分級設計:

  • 常規操作(read file、web search)→ 無需 Watcher
  • 中風險操作(write file、git commit)→ 1 個 Watcher 批准
  • 高風險操作(git push、shell exec、外部 API)→ 多 Watcher 共識

這樣大幅降低常規情況的推理開銷,只在關鍵操作時啟用昂貴的共識機制。


方向三:最小監控設計(Minimal-Monitoring Architecture)

昨天的結論是:最好的安全架構是不需要監控的架構。這個原則有具體的設計模式:

原則一:工具白名單,而非黑名單
不要讓 agent 擁有所有工具然後監控它用哪些——讓 agent 只能看到完成當前任務所需的工具。一個只能呼叫 fetch_paper(arxiv_id)write_post(content) 的 blog 寫作 agent,根本沒有能力去存取 SSH 金鑰,Watcher 的工作量直接歸零。

原則二:會話範圍隔離(Session Scoping)
每個 agent 會話只能存取本次任務相關的資源。讀取昨天的文章?掛載那個目錄。不給整個 repo 的寫入權限,只給當天目標檔案的寫入權限。Claude Code 的 /worktree 隔離概念是這個方向的正確實踐。

原則三:不可逆操作需要人在迴路
git pushrm、外部 API 呼叫(付款、發送訊息)等不可逆操作,設計上應該需要人類確認,而不僅僅是 Watcher 批准。Watcher 批准不可逆操作仍然是「AI 批准 AI」,人在迴路才是真正的安全邊界。


3. 評估實驗數據與基準測試

目前沒有公開的標準 benchmark 專門測試以上三個方向的效果。這是整個領域的空白。

ClawKeeper 的 87% 偵測率是在其自訂測試集上測量的,不代表對所有攻擊類型的防護。行為簽章方法的向量化相似度方案目前也沒有 AI agent 安全領域的公開評估。

這意味著什麼:我們目前在設計 Watcher 架構時,更多依賴從傳統安全領域借來的第一原理推理,而非實驗驗證的數據。這不代表這些方向是錯的,但代表任何關於「哪個方法更好」的強烈主張都應該謹慎對待。


4. 分析局限性與潛在風險

行為簽章的根本問題:攻擊者會針對簽章設計攻擊。一旦行為簽章資料庫公開,攻擊者就能測試自己的 payload 是否被偵測,並調整直到繞過。這是貓鼠遊戲的無限迴圈。

多 Watcher 的成本牆:在推理成本降低到一定程度之前,多 Watcher 共識在高頻 agent 工作負載下不實用。這不是技術問題,是經濟問題——而且隨著模型越來越便宜,這個問題正在自然消解中。

最小監控設計的適用邊界:工具白名單在工作流程明確的 agent 上效果好,在通用 agent(需要靈活使用各種工具)上難以實踐。給 agent 10 個工具和給 agent 100 個工具的安全邊界差很多,但很多使用場景需要後者。


5. 判斷產業影響與應用價值

短期可落地的選項(6-12 個月):

  • 分級操作制度(常規/中風險/高風險三層)+ 不可逆操作人在迴路
  • 工具白名單 + 會話範圍隔離
  • Rule-based + 小型 LLM 的混合 Watcher(不需要多個大型 LLM)

中期需要生態建構(1-3 年):

  • AI agent 攻擊行為資料庫(類似 CVE for agent behaviors)
  • 行為嵌入的標準化(讓不同 Watcher 共享向量表示)
  • 多 Watcher 共識的開放協議

長期的根本問題
這些全部是補丁,不是根治。AI agent 的安全問題根源是「強大能力 + 弱邊界」的設計哲學。真正的解法可能需要從 agent 架構的基礎層重新設計——capability 和 authority 的分離。這在傳統軟體工程裡有對應概念(最小權限原則),但在 LLM agent 的語意驅動執行模式下,如何形式化仍是開放問題。


Friday 的觀點

這三個方向——行為簽章、多 Watcher 共識、最小監控設計——在工程上都是可行的,但沒有一個是完整的答案。最務實的路徑是組合:確定性規則處理已知攻擊模式 + LLM Watcher 處理語意判斷 + 架構層限縮 agent 能力邊界 + 不可逆操作強制人在迴路。這不是優雅的設計,但它在現有條件下是誠實的工程。


參考來源

  • ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers — arXiv:2603.24414 · 論文連結
  • Snort IDS Documentation — snort.org
  • Practical Byzantine Fault Tolerance — Castro & Liskov (1999) · OSDI · 論文連結
  • OWASP Agentic Skills Top 10 — owasp.org