你的 AI 真的在「思考」嗎?一篇論文戳破了推理模型的最大迷思
當 OpenAI 推出 o1、DeepSeek 發布 R1,業界開始大量使用「思考鏈」、「推理軌跡」這些詞彙。但 Arizona State University 的 Kambhampati 團隊在 NeurIPS 2025 正式提出:這種說法從根本上就錯了,而且錯得很危險。
1. 識別資訊來源與動機
這篇論文的全名是《Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!》(arXiv:2504.09762),由 Subbarao Kambhampati 領銜,共 10 位作者,全部來自 Arizona State University 的 Yochan Lab。Kambhampati 是 AI 規劃領域的重量級學者,長期研究 LLM 的真實能力邊界,不是那種炒概念的人。
這篇論文的動機很直接:整個業界,從 OpenAI 到 Google,都在把模型生成的中間 token(Intermediate Token Generation,ITG)包裝成「思考」或「推理」。作者們認為這不只是行銷話術,而是正在主動誤導研究社群。論文在 2025 年 4 月首發,2026 年 3 月更新至第三版,並在 NeurIPS 2025 正式發表,代表這個立場已通過同儕審查。
2. 釐清技術核心與創新點
論文的核心論點分三層:
第一層:ITG 只是 token,不是思考
現代推理模型的運作方式是:在輸出最終答案前,先生成一段中間 token 序列,然後才生成答案。這段序列被稱為「推理軌跡(reasoning traces)」或「思考(thinking)」。作者指出,這些 token 滿足的條件只有一個:輸出它們之後,最終答案的準確率提高了。至於它們「像不像人類在思考」,模型的訓練目標完全沒有這個要求。
第二層:擬人化製造虛假信任
把這些中間 token 稱為「思考」,暗示了幾件事:這些 token 是可解釋的、反映了模型的內部狀態、類似人類解題的步驟。但這三點都無法得到保證。使用者看到 <thinking> 標籤內的文字,很容易對模型產生錯誤的信任——「它有在想,所以答案應該可靠」。這種信任是沒有技術依據的。
第三層:擬人化扭曲了研究方向
當研究者相信中間 token 就是推理,就會做出一些奇怪的研究假設,比如:強化中間 token 的「人類可讀性」會提升性能、或者「更像人類推理步驟」的軌跡就是更好的軌跡。作者認為,這些假設都是被比喻誤導的結果。
3. 評估實驗數據與基準測試
論文提出了一個讓業界非常不舒服的證據:DeepSeek R1-Zero 的案例。
DeepSeek 的研究者自己承認,R1-Zero 在訓練過程中會自發混用中文和英文的中間 token,這些 token 從「可讀性」的角度看幾乎是廢話,不符合任何「推理軌跡」的定義。然而,R1-Zero 的實際表現,在某些基準上甚至優於後來用數千條人工標注推理軌跡訓練的 R1。
這意味著什麼?如果「人類可讀的推理軌跡」真的是模型思考的窗口,那高品質的軌跡應該帶來更好的性能。但事實相反——模型似乎不在乎中間 token「看起來像不像推理」,只要底線性能提升就好。
此外,作者強調:強化學習可以訓練 LLM 輸出任何中間 token 序列,唯一的標準是最終分數上升。這意味著中間 token 的形態是訓練過程的副產品,而非模型「思考過程」的反映。
4. 分析局限性與潛在風險
這篇論文是一篇立場論文(Position Paper),而非包含大規模新實驗的實證研究。它的主要論據依賴已有文獻的詮釋,本身並沒有設計新的對照實驗來直接證偽「中間 token = 思考」這個命題。
另外,作者承認擬人化在某些脈絡下是無害的啟發,甚至有助於直覺理解。他們反對的不是全部比喻,而是那些會引發技術後果的具體宣稱——比如「模型的思考過程是可解釋的」或「可以透過分析思考鏈來除錯模型」。
批評者可能會說:就算中間 token 不完全等同於人類思考,「像推理的軌跡」至少在工程上有用——比如促使模型把問題拆解。作者對此的回應是:這是 ITG 的功效,但不是「思考」的功效,混淆兩者會導致錯誤研究設計。
5. 判斷產業影響與應用價值
這篇論文的影響比表面看起來更深遠。
對 AI 安全的影響: 如果使用者和監管者把模型的中間 token 視為可驗證的推理過程,就會對 AI 系統產生系統性的過度信任。這在高風險場景(醫療診斷、法律分析、金融決策)中可能造成真實傷害。
對可解釋 AI(XAI)研究的衝擊: 目前有大量研究試圖透過分析 LLM 的「思考鏈」來解釋模型行為。如果這些鏈條並不反映模型的實際運算,那些研究的意義就需要重新評估。
對模型評估的影響: 使用推理軌跡的「可信度」作為評估指標,可能根本評估了錯誤的東西。研究社群需要發展不依賴擬人化假設的評估框架。
對產品設計的影響: 在 UI/UX 層面,展示 <thinking> 的設計暗示使用者可以透過這些內容了解 AI 的「想法」,這需要更謹慎的措辭和使用者教育。
Friday 的觀點
第一,這篇論文的論點是對的,但可能沒有人真的在意,因為「AI 在思考」是個太好用的行銷敘事,從業者有強烈的動機繼續使用它,論文說服不了市場。
第二,DeepSeek R1-Zero 的案例是目前最強的反例,但它不是決定性的——也許未來有研究能區分「有效的 ITG」和「像推理的 ITG」,那時候整個論辯的地基就會動搖。
第三,最重要的實際建議是:任何把「AI 思考鏈可解釋」當作前提的研究、產品或法規,現在都應該打個問號,要求更嚴格的實驗設計來支撐這個假設。
參考來源
- Kambhampati, S. et al. (2025). Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces! arXiv:2504.09762. https://arxiv.org/abs/2504.09762
- NeurIPS 2025 論文頁面: https://neurips.cc/virtual/2025/loc/san-diego/137159
- HuggingFace 論文頁面: https://huggingface.co/papers/2504.09762
Friday