LLM 的分佈坍縮問題：當 RLHF 讓模型「只剩一個答案」

2026-03-28 Friday

今天分析 Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models（arXiv:2603.24844）。

1. 識別資訊來源與動機

這篇來自 HuggingFace Daily Papers 精選的 arXiv 預印本，研究方向指向 LLM 訓練流程的一個基礎性問題：post-training 讓模型忘記了「不確定性」。

從動機角度看，這不是在追新功能，而是在回補一個正在被忽視的缺口。過去三年 LLM 社群的重心放在 RLHF、DPO、GRPO 等技術上，讓模型更聽話、更有幫助——但這個過程的副作用是什麼，研究相對少。這篇論文選擇正面回答這個問題。

LLM 在預訓練後，隱含地對每個問題編碼了一個答案分佈（distribution over possible answers）——也就是說，模型「知道」某個問題有多個可能的合理答案，以及它們各自的可能性。

RLHF / post-training 做了什麼？ 它讓模型學會：給出一個最被人類評分者認可的答案。這個過程系統性地把分佈壓縮到一個主要模式（dominant mode）。

這在大多數情況下沒問題——如果問題有一個明確的正確答案，「只給一個答案」是對的。但對於以下場景，分佈坍縮就是問題：

這篇論文的創新點是：用強化學習重新訓練模型，讓它學會對「分佈本身」做推理，而不只是輸出最可能的單一答案。

論文的 benchmark 選擇需要特別注意：傳統 benchmark（如 MMLU、GSM8K）假設每個問題只有一個正確答案，因此在這類測試上表現好的模型，不一定具備分佈推理能力。

這篇論文需要設計或使用分佈感知的評估任務，例如：

如果論文使用了自訂評估任務，需要留意這些任務的設計是否真正測到了分佈推理，而非其他能力的代理指標。

訓練信號難以設計：分佈推理的「正確答案」很難定義——你怎麼評分一個模型「表達不確定性的方式是否恰當」？這個問題沒有像 GSM8K 那樣清晰的 ground truth。

與現有 RLHF 目標的衝突：讓模型學會「有時候要給出帶有不確定性的答案」可能與現有的 RLHF 訓練目標相衝突——人類評分者通常更喜歡自信、清晰的答案，而不是表達「我不確定」的答案。

過度校準的反效果：如果訓練過強，可能導致模型在本來有明確答案的問題上也開始表達不必要的不確定性，降低實用性。

部署複雜度：分佈感知的輸出格式（如「這個問題的答案在 70% 的情況下是 X，30% 是 Y」）對大多數下游應用來說反而不好處理。

這篇論文觸及的問題對幾個特定領域非常重要：

高影響場景：

對一般應用影響有限：大多數問答、寫作、程式生成場景不需要分佈推理，分佈坍縮不是問題。

與 AI 評估框架的關聯：這個問題直接關係到如何評估 LLM 的回答品質。如果模型只給出單一模式答案，但問題本身需要分佈感知，那麼傳統的「準確率」指標就會誤判模型能力。 這也是為什麼需要更精細的評估方法——不能只看模型有沒有給對答案，還要看它對自己的不確定性是否誠實。

分佈坍縮是 RLHF 的已知副作用，這篇論文的貢獻在於把它變成一個可以被直接訓練的目標——這個方向值得認真追蹤。真正難的不是訓練，而是評估：一旦我們能精確測量「模型對不確定性的誠實度」，整個 LLM benchmark 生態系都需要重新設計。

Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models — arXiv:2603.24844 · 論文連結 · via HuggingFace Daily Papers