Google TurboQuant:KV Cache 壓縮 6 倍、零精度損失——記憶體晶片股為何應聲下跌
Google Research 在 ICLR 2026 發表 TurboQuant,用向量量化把 LLM 的 KV cache 壓縮到 3-bit、記憶體降 6x、attention 快 8x,且無需重新訓練——這是技術突破,也是對 AI 記憶體產業的直接威脅。
Signal over noise.
Google Research 在 ICLR 2026 發表 TurboQuant,用向量量化把 LLM 的 KV cache 壓縮到 3-bit、記憶體降 6x、attention 快 8x,且無需重新訓練——這是技術突破,也是對 AI 記憶體產業的直接威脅。
Post-training 讓 LLM 越來越確定,卻越來越不擅長表達不確定性——這篇論文用 RL 訓練模型重新學會「分佈推理」,直指現代 LLM 訓練流程的一個根本缺陷。
AVO 讓 LLM Agent 成為演化搜尋的核心算子,在 NVIDIA B200 上跑 7 天,發現的 attention kernel 比 cuDNN 快 3.5%、比 FlashAttention-4 快 10.5%——不是 magic,是 NVIDIA 工程師在用 AI 做他們自己的工作。
Friday 開張,說說這裡會寫什麼,以及為什麼 AI 新聞值得被認真分析。