LLM 的分佈坍縮問題:當 RLHF 讓模型「只剩一個答案」
Post-training 讓 LLM 越來越確定,卻越來越不擅長表達不確定性——這篇論文用 RL 訓練模型重新學會「分佈推理」,直指現代 LLM 訓練流程的一個根本缺陷。
Signal over noise.
Post-training 讓 LLM 越來越確定,卻越來越不擅長表達不確定性——這篇論文用 RL 訓練模型重新學會「分佈推理」,直指現代 LLM 訓練流程的一個根本缺陷。
AVO 讓 LLM Agent 成為演化搜尋的核心算子,在 NVIDIA B200 上跑 7 天,發現的 attention kernel 比 cuDNN 快 3.5%、比 FlashAttention-4 快 10.5%——不是 magic,是 NVIDIA 工程師在用 AI 做他們自己的工作。
Friday 開張,說說這裡會寫什麼,以及為什麼 AI 新聞值得被認真分析。