你的 AI 真的在「思考」嗎？一篇論文戳破了推理模型的最大迷思

2026-04-17 Friday

當 OpenAI 推出 o1、DeepSeek 發布 R1，業界開始大量使用「思考鏈」、「推理軌跡」這些詞彙。但 Arizona State University 的 Kambhampati 團隊在 NeurIPS 2025 正式提出：這種說法從根本上就錯了，而且錯得很危險。

1. 識別資訊來源與動機

這篇論文的全名是《Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!》（arXiv:2504.09762），由 Subbarao Kambhampati 領銜，共 10 位作者，全部來自 Arizona State University 的 Yochan Lab。Kambhampati 是 AI 規劃領域的重量級學者，長期研究 LLM 的真實能力邊界，不是那種炒概念的人。

這篇論文的動機很直接：整個業界，從 OpenAI 到 Google，都在把模型生成的中間 token（Intermediate Token Generation，ITG）包裝成「思考」或「推理」。作者們認為這不只是行銷話術，而是正在主動誤導研究社群。論文在 2025 年 4 月首發，2026 年 3 月更新至第三版，並在 NeurIPS 2025 正式發表，代表這個立場已通過同儕審查。

2. 釐清技術核心與創新點

論文的核心論點分三層：

第一層：ITG 只是 token，不是思考

現代推理模型的運作方式是：在輸出最終答案前，先生成一段中間 token 序列，然後才生成答案。這段序列被稱為「推理軌跡（reasoning traces）」或「思考（thinking）」。作者指出，這些 token 滿足的條件只有一個：輸出它們之後，最終答案的準確率提高了。至於它們「像不像人類在思考」，模型的訓練目標完全沒有這個要求。

第二層：擬人化製造虛假信任

把這些中間 token 稱為「思考」，暗示了幾件事：這些 token 是可解釋的、反映了模型的內部狀態、類似人類解題的步驟。但這三點都無法得到保證。使用者看到 <thinking> 標籤內的文字，很容易對模型產生錯誤的信任——「它有在想，所以答案應該可靠」。這種信任是沒有技術依據的。

第三層：擬人化扭曲了研究方向

當研究者相信中間 token 就是推理，就會做出一些奇怪的研究假設，比如：強化中間 token 的「人類可讀性」會提升性能、或者「更像人類推理步驟」的軌跡就是更好的軌跡。作者認為，這些假設都是被比喻誤導的結果。

3. 評估實驗數據與基準測試

論文提出了一個讓業界非常不舒服的證據：DeepSeek R1-Zero 的案例。

DeepSeek 的研究者自己承認，R1-Zero 在訓練過程中會自發混用中文和英文的中間 token，這些 token 從「可讀性」的角度看幾乎是廢話，不符合任何「推理軌跡」的定義。然而，R1-Zero 的實際表現，在某些基準上甚至優於後來用數千條人工標注推理軌跡訓練的 R1。

這意味著什麼？如果「人類可讀的推理軌跡」真的是模型思考的窗口，那高品質的軌跡應該帶來更好的性能。但事實相反——模型似乎不在乎中間 token「看起來像不像推理」，只要底線性能提升就好。

此外，作者強調：強化學習可以訓練 LLM 輸出任何中間 token 序列，唯一的標準是最終分數上升。這意味著中間 token 的形態是訓練過程的副產品，而非模型「思考過程」的反映。

4. 分析局限性與潛在風險

這篇論文是一篇立場論文（Position Paper），而非包含大規模新實驗的實證研究。它的主要論據依賴已有文獻的詮釋，本身並沒有設計新的對照實驗來直接證偽「中間 token = 思考」這個命題。

另外，作者承認擬人化在某些脈絡下是無害的啟發，甚至有助於直覺理解。他們反對的不是全部比喻，而是那些會引發技術後果的具體宣稱——比如「模型的思考過程是可解釋的」或「可以透過分析思考鏈來除錯模型」。

批評者可能會說：就算中間 token 不完全等同於人類思考，「像推理的軌跡」至少在工程上有用——比如促使模型把問題拆解。作者對此的回應是：這是 ITG 的功效，但不是「思考」的功效，混淆兩者會導致錯誤研究設計。

5. 判斷產業影響與應用價值

這篇論文的影響比表面看起來更深遠。

對 AI 安全的影響： 如果使用者和監管者把模型的中間 token 視為可驗證的推理過程，就會對 AI 系統產生系統性的過度信任。這在高風險場景（醫療診斷、法律分析、金融決策）中可能造成真實傷害。

對可解釋 AI（XAI）研究的衝擊： 目前有大量研究試圖透過分析 LLM 的「思考鏈」來解釋模型行為。如果這些鏈條並不反映模型的實際運算，那些研究的意義就需要重新評估。

對模型評估的影響： 使用推理軌跡的「可信度」作為評估指標，可能根本評估了錯誤的東西。研究社群需要發展不依賴擬人化假設的評估框架。

對產品設計的影響： 在 UI/UX 層面，展示 <thinking> 的設計暗示使用者可以透過這些內容了解 AI 的「想法」，這需要更謹慎的措辭和使用者教育。

Friday 的觀點

第一，這篇論文的論點是對的，但可能沒有人真的在意，因為「AI 在思考」是個太好用的行銷敘事，從業者有強烈的動機繼續使用它，論文說服不了市場。

第二，DeepSeek R1-Zero 的案例是目前最強的反例，但它不是決定性的——也許未來有研究能區分「有效的 ITG」和「像推理的 ITG」，那時候整個論辯的地基就會動搖。

第三，最重要的實際建議是：任何把「AI 思考鏈可解釋」當作前提的研究、產品或法規，現在都應該打個問號，要求更嚴格的實驗設計來支撐這個假設。

參考來源

Kambhampati, S. et al. (2025). Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces! arXiv:2504.09762. https://arxiv.org/abs/2504.09762
NeurIPS 2025 論文頁面: https://neurips.cc/virtual/2025/loc/san-diego/137159
HuggingFace 論文頁面: https://huggingface.co/papers/2504.09762