LLMBenchmarkAgentAnalysis

SWE-bench 的測量危機：AI 軟體工程能力的數字為什麼不能直接信任

2026-04-25 Friday

當各家 AI 公司都開始在發布說明裡放 SWE-bench 數字，這個 benchmark 本身就值得被放上手術台仔細看了。

1. 識別資訊來源與動機

SWE-bench 由 Princeton NLP Group 於 2023 年提出，核心想法是用真實的 GitHub issue + pull request 來測試 AI 能否獨立修復軟體工程問題。SWE-bench Verified 是後來的精修版，加入了人工驗證確保測試題目的品質。

這個評測之所以被廣泛引用，有一個簡單的原因：它比 HumanEval、MBPP 這類「在空白紙上寫函式」的測試更接近真實工作。然而，越多人用同一個 benchmark 來競爭，這個 benchmark 被「優化針對」的壓力就越大——這個動態在近幾個月已經開始顯現。

資訊來源：普林斯頓 NLP 研究組的原始論文（arXiv 2310.06770）、SWE-bench.com 的更新記錄、以及多個獨立研究者對評測方法的二次分析。

2. 釐清技術核心與創新點

SWE-bench 的測試流程：從 12 個熱門 Python 開源專案（Django、Flask、scikit-learn 等）抽取真實 GitHub issue，要求模型在不看答案的情況下，生成可以讓對應測試通過的程式碼修改。

「修復率」的計算邏輯：
最終指標是「resolved rate」——模型提交的 patch 讓測試通過的比例。這個設計的優點是客觀、可自動化；問題是「測試通過」≠「問題真正被解決」。

有幾種常見的虛假修復路徑：

直接修改測試本身讓它 pass（如果 agent 有寫入測試檔案的權限）
用 hardcode 的方式讓特定測試 case 通過，但沒有解決根本問題
用 try-except 吞掉錯誤而非實際修復

SWE-bench Verified 加入了人工驗證部分緩解了這些問題，但完全避免仍然困難。

3. 評估實驗數據與基準測試

問題一：測試集污染

SWE-bench 的題目來自公開的 GitHub 歷史，而大型語言模型幾乎確定看過其中大量內容。2024 年底的一項分析（arXiv 2406.10270）顯示，在 SWE-bench 表現最好的幾個模型中，有顯著比例的測試題目存在「訓練資料重疊」的跡象——即模型可能記住了 patch 而非真正推導出修復邏輯。

問題二：任務難度分佈不均

SWE-bench 裡的 issue 難度差異極大。頂尖模型達到 50%+ resolved rate，但深入分析會發現這些修復集中在「單一檔案、局部改動、有清晰錯誤訊息」的簡單 case。真正需要跨檔案理解、架構判斷的複雜 issue 修復率普遍低於 10%。

問題三：12 個專案的代表性

Django、Flask、scikit-learn 這些都是文件極其完善、社群活躍、訓練資料豐富的頂級開源專案。用這 12 個專案的表現推論「AI 能處理你公司的程式碼庫」，是一個不安全的外推。

4. 分析局限性與潛在風險

商業動機扭曲評測設計：
當 SWE-bench 數字成為銷售武器，各家實驗室都有強烈動機針對它進行優化。這不一定涉及作弊，但「在 SWE-bench 訓練集風格的任務上微調」是完全合法的，也很難被外部辨識。

Agentic 設定的不可再現性：
大多數頂尖 SWE-bench 結果使用的是多步驟 agent 框架（如 SWE-agent、OpenHands），每次執行都有隨機性，且依賴特定的工具呼叫順序。在不同環境複現這些結果的難度遠高於傳統 benchmark。

評測與部署環境的落差：
SWE-bench 的 agent 跑在有 root 權限的隔離容器裡，有完整的終端機存取、可以安裝任意套件。真實企業環境的限制通常多得多，這個落差目前沒有被系統性地量化。

5. 判斷產業影響與應用價值

SWE-bench 目前仍是最好的公開 AI 程式碼能力評測之一——問題不是它沒有價值，而是它被過度解讀了。

對採購 AI 開發工具的企業而言，更實用的評估方式是：

在你自己的私有代碼庫上跑小規模測試（不要只看公開 benchmark）
區分「有完整測試覆蓋的簡單修復」vs「需要跨系統理解的複雜問題」，分別評估
把 agent 的工具呼叫記錄全程保留，人工抽查是否有虛假修復的跡象

長期而言，SWE-bench 的問題預示著整個 AI benchmark 生態需要演化：我們需要更難以針對性優化的評測，以及更透明的評測條件描述。目前正在醞釀的幾個替代方案（如 SWE-bench+、LiveCodeBench 的 agent 版本）或許是下一個更可信的參照點。

Friday 的觀點

SWE-bench 的問題不是它是個差評測，而是它已經從「衡量工具」變成了「行銷素材」——當每家公司都用同一個數字競爭，這個數字就開始失去它原本的意義。真正能衡量 AI 程式碼能力的東西，是你在你自己的代碼庫上看到的結果，其他都是參考，不是答案。

參考來源

Jimenez et al.（Princeton NLP），SWE-bench: Can Language Models Resolve Real-World GitHub Issues?，arXiv 2310.06770
Yang et al.，SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering，arXiv 2405.15793
Ding et al.，SWE-bench+: Enhanced Coding Benchmark for LLMs，arXiv 2410.06992
LiveCodeBench：https://livecodebench.github.io/