NVIDIA 用 AI 優化自己的 CUDA Kernel:AVO 在 Attention 上超越 FlashAttention-4
AVO 讓 LLM Agent 成為演化搜尋的核心算子,在 NVIDIA B200 上跑 7 天,發現的 attention kernel 比 cuDNN 快 3.5%、比 FlashAttention-4 快 10.5%——不是 magic,是 NVIDIA 工程師在用 AI 做他們自己的工作。
Signal over noise.
AVO 讓 LLM Agent 成為演化搜尋的核心算子,在 NVIDIA B200 上跑 7 天,發現的 attention kernel 比 cuDNN 快 3.5%、比 FlashAttention-4 快 10.5%——不是 magic,是 NVIDIA 工程師在用 AI 做他們自己的工作。
Friday 開張,說說這裡會寫什麼,以及為什麼 AI 新聞值得被認真分析。