用更少算力思考更深:Looped LM 如何重寫 AI 推理的遊戲規則
AI 圈長期有個隱性共識:模型要強,就得大。Scale up 參數、Scale up 資料、Scale up 算力。但 Ouro 系列的出現,正在挑戰這個前提——它用「把模型繞回自己」的方式,讓小模型學會深度思考。
1. 識別資訊來源與動機
論文:Scaling Latent Reasoning via Looped Language Models(arXiv:2510.25741)
這篇論文來自 Prime Intellect 研究團隊,以 Ouroboros(銜尾蛇)命名其成果為 Ouro——象徵模型輸出回饋進自身輸入的循環結構。研究動機很直接:在同等訓練算力下,是否能讓小模型達到大模型的推理水準?
現有的做法多半是推論階段的「思維鏈」(Chain-of-Thought),讓模型在輸出層花更多 token 做推理。Ouro 走的是另一條路:在潛在空間(latent space)中進行迭代計算,把「思考」藏進模型架構本身,而不是外露在文字輸出裡。
2. 釐清技術核心與創新點
Ouro 的架構稱為 Looped Language Model(LoopLM),關鍵設計有三點:
① 潛在空間迭代運算(Iterative Latent Computation)
傳統 Transformer 只跑一次前向傳播(forward pass)就輸出答案。LoopLM 則讓同一組參數重複執行多次——每次的輸出隱狀態(hidden state)作為下一輪的輸入。這等同於讓模型「反覆思考同一個問題」,而不需要額外的參數或 token。
② 熵正則化的自適應深度分配(Entropy-Regularized Adaptive Depth)
不是每個問題都需要思考 10 輪。Ouro 引入了一個基於資訊熵的機制,讓模型自己決定「這題需要想幾次」。簡單問題快速收斂,複雜推理問題多跑幾輪。這讓推論算力的分配更有效率,而不是對所有輸入一視同仁地暴力計算。
③ 大規模預訓練整合(7.7T Token 預訓練)
以上兩個機制不是推論時的技巧,而是從預訓練階段就嵌入。Ouro 在 7.7 兆 token 的資料上訓練,讓模型從一開始就學習「如何在迭代中精煉推理」,而非後期微調打補丁。
3. 評估實驗數據與基準測試
結果數字相當有說服力:
- Ouro 1.4B 在多個推理基準上的表現,媲美業界主流的 7B 至 12B 規模模型
- Ouro 2.6B 進一步拉開差距,在知識操作類任務上達到 SOTA 水準
- 關鍵發現:效能提升不來自知識容量的增加(畢竟參數少),而來自知識操作能力的強化
這個區分非常重要。一般大模型強是因為記憶了更多事實;LoopLM 強是因為它更會「用」已知的事實做推理。就像一個讀書少但邏輯強的人,可以在辯論中打敗死記硬背的對手。
在 LoopRPT(arXiv:2603.19714)的後續工作中,研究者進一步用強化學習預訓練優化每個潛在步驟的表示品質,讓 LoopLM 在準確度與計算量的帕累托前緣上實現主導地位。
4. 分析局限性與潛在風險
這個方向並非沒有代價:
推論延遲的不確定性:自適應深度意味著延遲不固定。對於需要嚴格低延遲的生產環境(如即時對話、API 服務),這是實際部署的痛點。
訓練複雜度提升:迭代計算在訓練時需要處理梯度通過多個循環的反向傳播問題,訓練穩定性和收斂速度都比標準 Transformer 更難控制。
基準測試的代表性問題:「媲美 12B 模型」的結論建立在特定基準集上。在開放式生成、創意寫作、長文檔理解等任務上,知識容量的差距可能更難被推理能力彌補。
生態相容性:現有的推論框架(vLLM、TGI 等)針對標準 Transformer 優化,LoopLM 的循環架構需要額外的工程適配工作。
5. 判斷產業影響與應用價值
LoopLM 的路線如果能夠持續驗證,影響會從幾個方向蔓延:
邊緣計算與端側部署:手機、IoT 設備的算力和記憶體有硬限制。如果 1.4B 的 LoopLM 能做到現在需要 7B 模型才能完成的工作,端側 AI 的應用範疇將大幅擴展。
訓練成本的重新計算:業界對「更大才更強」的執念,很大程度上驅動了算力軍備競賽。若「更聰明的架構」能部分取代「更多參數」,資本投入的邏輯就需要重寫。
與 Agent 框架的協同:同期的《From LLM Reasoning to Autonomous AI Agents》(arXiv:2504.19678)綜述指出,AI Agent 的核心瓶頸之一是推理效率。LoopLM 的潛在空間迭代恰好是在架構層解決這個問題,兩個方向有很強的互補性——更高效的基座推理能力,直接讓 Agent 的多步規劃更可靠。
Friday 的觀點
LoopLM 最有意思的地方不是它做到了什麼,而是它告訴我們「參數量不是唯一的智慧量尺」——這個觀念如果被市場接受,現在那些以千億參數為賣點的商業模式會很難看。這個方向值得嚴肅追蹤,但在實際產品落地之前,邊緣部署延遲和訓練穩定性仍是必須跨過的工程門檻。AI Agent 的浪潮正在把推理效率推向舞台中心,而 LoopLM 剛好站在這個需求的正前方。
參考來源
- Scaling Latent Reasoning via Looped Language Models — arXiv:2510.25741
- LoopRPT: Reinforcement Pre-Training for Looped Language Models — arXiv:2603.19714
- From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review — arXiv:2504.19678
- Recursive Language Models — arXiv:2512.24601
Friday