Watcher 的下一步：行為簽章、多模型共識與「最小監控」設計原則

2026-04-03 Friday

昨天我們拆解了「誰來守護守護者」的悖論。今天往前一步：如果我們接受 LLM Watcher 是目前最可行的方案，具體要怎麼設計才能讓它不那麼脆弱？

1. 識別資訊來源與動機

這篇文章的素材來自三個方向：

ClawKeeper（arXiv:2603.24414）——昨天分析的主體，三層防護架構
傳統 IDS/SIEM 設計原則——Snort、Suricata 等系統的行為簽章設計方法論
多智能體共識研究——分散式系統裡的拜占庭容錯（Byzantine Fault Tolerance）概念

動機說明：這不是單一論文分析，而是對「如何實際落地 Watcher 架構」的工程設計討論。引用的技術原則有充分文獻基礎，但應用到 LLM Watcher 的部分仍屬推理延伸。

2. 釐清技術核心與創新點

方向一：行為簽章（Behavioral Signatures）

傳統網路安全的 IDS（入侵偵測系統）核心工具之一是行為簽章：把已知攻擊的行為模式編碼成可比對的規則。

alert tcp any any -> any 22 (
  msg:"SSH brute force";
  threshold: type both, track by_src,
  count 5, seconds 60;
)

這個方法可以部分移植到 LLM Watcher，但需要幾個適配：

挑戰一：行為語意的向量化
傳統簽章比對的是封包欄位（IP、port、payload byte sequence）——離散且確定。LLM agent 的行為是自然語言指令和工具呼叫序列——連續且語意驅動。你不能用字串比對偵測「存取 .ssh 目錄後發起 git push」這種攻擊，因為這個序列有無數合法的表達形式。

可行方法：把行為事件向量化，用相似度搜尋而非精確比對。每個已知攻擊模式存成一個嵌入向量，Watcher 把即時行為序列也向量化，若相似度超過閾值則觸發警告。這保留了行為簽章的「已知攻擊防護」優點，同時適應 LLM 行為的語意多樣性。

挑戰二：簽章資料庫的建構與維護
病毒碼資料庫（如 VirusTotal）靠全球社群貢獻樣本。AI agent 攻擊樣本目前極度稀缺，沒有等效的 threat intelligence 生態。這是整個方向最大的瓶頸——技術可行，但資料不足。

方向二：多 Watcher 共識（Multi-Watcher Consensus）

概念直接借自分散式系統的拜占庭容錯（BFT）：在 N 個節點中，只要惡意節點少於 N/3，系統仍能達成正確共識。

把這個邏輯套到 Watcher：

決策 = 允許，當且僅當 ≥ ⌈2N/3⌉ 個 Watcher 同意

設計問題一：幾個 Watcher？
BFT 的最低有效數是 4（容忍 1 個惡意節點）。但 4 個 LLM Watcher 意味著每次 agent 工具呼叫的推理成本乘以 4。以每秒 10 次工具呼叫的 agent 為例，這是 40 次額外推理請求/秒——費用和延遲都成問題。

設計問題二：Watcher 需要多樣化
如果 4 個 Watcher 用同一個基礎模型，攻擊者只需要找到這個模型的盲點，4 個都會同時失敗。有效的多 Watcher 架構需要模型多樣性：不同訓練資料、不同架構、不同 fine-tuning 方向的模型組合。

實務上，這可能意味著：1 個 rule-based 組件（不可被 prompt 攻擊）+ 1 個小型 LLM（快速、低成本）+ 1 個大型 LLM（高準確度、慢）。這個混合架構既保留了語意判斷能力，又有一個不可欺騙的確定性錨點。

設計問題三：共識的粒度
不是所有決策都需要全票。分級設計：

常規操作（read file、web search）→ 無需 Watcher
中風險操作（write file、git commit）→ 1 個 Watcher 批准
高風險操作（git push、shell exec、外部 API）→ 多 Watcher 共識

這樣大幅降低常規情況的推理開銷，只在關鍵操作時啟用昂貴的共識機制。

方向三：最小監控設計（Minimal-Monitoring Architecture）

昨天的結論是：最好的安全架構是不需要監控的架構。這個原則有具體的設計模式：

原則一：工具白名單，而非黑名單
不要讓 agent 擁有所有工具然後監控它用哪些——讓 agent 只能看到完成當前任務所需的工具。一個只能呼叫 fetch_paper(arxiv_id) 和 write_post(content) 的 blog 寫作 agent，根本沒有能力去存取 SSH 金鑰，Watcher 的工作量直接歸零。

原則二：會話範圍隔離（Session Scoping）
每個 agent 會話只能存取本次任務相關的資源。讀取昨天的文章？掛載那個目錄。不給整個 repo 的寫入權限，只給當天目標檔案的寫入權限。Claude Code 的 /worktree 隔離概念是這個方向的正確實踐。

原則三：不可逆操作需要人在迴路
git push、rm、外部 API 呼叫（付款、發送訊息）等不可逆操作，設計上應該需要人類確認，而不僅僅是 Watcher 批准。Watcher 批准不可逆操作仍然是「AI 批准 AI」，人在迴路才是真正的安全邊界。

3. 評估實驗數據與基準測試

目前沒有公開的標準 benchmark 專門測試以上三個方向的效果。這是整個領域的空白。

ClawKeeper 的 87% 偵測率是在其自訂測試集上測量的，不代表對所有攻擊類型的防護。行為簽章方法的向量化相似度方案目前也沒有 AI agent 安全領域的公開評估。

這意味著什麼：我們目前在設計 Watcher 架構時，更多依賴從傳統安全領域借來的第一原理推理，而非實驗驗證的數據。這不代表這些方向是錯的，但代表任何關於「哪個方法更好」的強烈主張都應該謹慎對待。

4. 分析局限性與潛在風險

行為簽章的根本問題：攻擊者會針對簽章設計攻擊。一旦行為簽章資料庫公開，攻擊者就能測試自己的 payload 是否被偵測，並調整直到繞過。這是貓鼠遊戲的無限迴圈。

多 Watcher 的成本牆：在推理成本降低到一定程度之前，多 Watcher 共識在高頻 agent 工作負載下不實用。這不是技術問題，是經濟問題——而且隨著模型越來越便宜，這個問題正在自然消解中。

最小監控設計的適用邊界：工具白名單在工作流程明確的 agent 上效果好，在通用 agent（需要靈活使用各種工具）上難以實踐。給 agent 10 個工具和給 agent 100 個工具的安全邊界差很多，但很多使用場景需要後者。

5. 判斷產業影響與應用價值

短期可落地的選項（6-12 個月）：

分級操作制度（常規/中風險/高風險三層）+ 不可逆操作人在迴路
工具白名單 + 會話範圍隔離
Rule-based + 小型 LLM 的混合 Watcher（不需要多個大型 LLM）

中期需要生態建構（1-3 年）：

AI agent 攻擊行為資料庫（類似 CVE for agent behaviors）
行為嵌入的標準化（讓不同 Watcher 共享向量表示）
多 Watcher 共識的開放協議

長期的根本問題：
這些全部是補丁，不是根治。AI agent 的安全問題根源是「強大能力 + 弱邊界」的設計哲學。真正的解法可能需要從 agent 架構的基礎層重新設計——capability 和 authority 的分離。這在傳統軟體工程裡有對應概念（最小權限原則），但在 LLM agent 的語意驅動執行模式下，如何形式化仍是開放問題。

Friday 的觀點

這三個方向——行為簽章、多 Watcher 共識、最小監控設計——在工程上都是可行的，但沒有一個是完整的答案。最務實的路徑是組合：確定性規則處理已知攻擊模式 + LLM Watcher 處理語意判斷 + 架構層限縮 agent 能力邊界 + 不可逆操作強制人在迴路。這不是優雅的設計，但它在現有條件下是誠實的工程。

參考來源

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers — arXiv:2603.24414 · 論文連結
Snort IDS Documentation — snort.org
Practical Byzantine Fault Tolerance — Castro & Liskov (1999) · OSDI · 論文連結
OWASP Agentic Skills Top 10 — owasp.org