訓練效率的新典範:微軟 Lens 如何以 19% 算力超越 FLUX 與 SD3
微軟開源 3.8B 參數文字生成圖像模型 Lens,僅用競品 19.3% 的訓練算力,在 GenEval、DPG-Bench 等基準上達到或超越 FLUX 與 SD3,核心在於高密度標注數據集 Lens-800M 與混合解析度訓練策略。
更多 →微軟開源 3.8B 參數文字生成圖像模型 Lens,僅用競品 19.3% 的訓練算力,在 GenEval、DPG-Bench 等基準上達到或超越 FLUX 與 SD3,核心在於高密度標注數據集 Lens-800M 與混合解析度訓練策略。
更多 →阿里雲 Qwen3 首創思考/非思考雙軌推理架構,以 30B MoE 達成 3B 的推論成本與 30B+ 的智能品質,在 AIME 數學競賽題上以 85.7% 遠超 GPT-4o 的 9.3%,重新定義開源模型的能力天花板。
更多 →EAGLE-2 透過自適應動態草稿樹,在保持輸出分佈完全等價的前提下,實現了語言模型 3.5 到 5 倍的推論加速,為邊緣部署與雲端降本開闢新路徑。
更多 →最新研究顯示,強化學習訓練能讓 LLM 在零樣本閉卷問答中召回率提升 27%,機制並非習得新知識,而是重新分配已存在的機率質量。
更多 →Stanford 團隊以 1,000 筆精選數學問題微調 Qwen2.5-32B,配合「Budget Forcing」測試時算力控制技術,讓 s1-32B 在 MATH500 達到 96.4% 媲美 o1-preview,打破規模即真理的假設。
更多 →掩碼擴散語言模型(如 LLaDA)首次證明非自迴歸架構可在語言生成上逼近 GPT,重新定義 AI 文字生成的可能邊界。
更多 →Mamba 2 透過結構化狀態空間對偶性理論,從數學層面證明 SSM 與 Transformer 的等價關係,以 2-8 倍訓練加速挑戰 Attention 統治地位。
更多 →SciResearcher 提出全自動科研代理框架,突破 LLM 在前沿科學領域的知識瓶頸,首次讓模型同時掌握資訊獲取、工具整合推理與長程規劃。
更多 →微軟 Phi-4 以 140 億參數挑戰千億大模型,核心祕密在於大規模合成資料生成,重新定義 AI 模型效率的上限。
更多 →當 LLM 的記憶不再只是上下文視窗,Titans 等新架構正在重塑 AI 代理的能力邊界。
更多 →DPO 以單一目標函數取代複雜的強化學習流程,正在重塑 AI 對齊訓練的標準範式,但其邊界條件與後繼方法揭示了更深層的技術張力。
更多 →Meta FAIR 用已對齊的強模型充當預訓練裁判,把真實性、安全性直接內建進權重基礎,同期 HeavySkill 則把平行推理加刻意審議訓練成可遷移天賦——AI 改進的兩端正在同步被攻克。
更多 →GazeVLM 讓視覺語言模型自主生成凝視標記、控制注意力焦點,在高解析度基準測試上以 4B 參數超越同規模 SOTA 約 4%,且計算開銷更低。
更多 →Stanford 的 AgentFlow 以 70 億參數模型在 10 項基準超越 GPT-4o,Flow-GRPO 訓練法解決了多步驟代理的長期稀疏獎勵難題。
更多 →SWE-bench 分數在兩年內從 3% 飆到 60%+,但這個數字代表的,可能不是你以為的那件事。
更多 →Single-Agent vs. Multi-Agent 的架構之爭,幾乎是微服務革命的逐格重映。從通訊成本、狀態管理到過度工程,這兩場辯論踩到的坑一模一樣——而軟體工程的教訓告訴我們,答案是「先別拆」。
更多 →DeepSeek-R1 透過群體相對策略優化(GRPO)讓模型自發學會長鏈推理,挑戰了「推理能力必須靠人工標注思維鏈才能習得」的主流假設。
更多 →等量推理預算下,單一 LLM Agent 在多跳推理任務上系統性勝出多 Agent 架構,業界流行的「多代理即更強」假設首度被資訊理論嚴格推翻。
更多 →最新研究揭示 RL 訓練只動到 1-3% 的 token 決策點,並非培養新能力,而是從既有選項中選得更精準。
更多 →Agent S2 與 MinerU2.5-Pro 分別突破電腦操控與文件解析的技術瓶頸,揭示 AI 在非結構化世界中的真實落地路徑。
更多 →上海交通大學發布 ARIS 系統,讓多個 LLM 扮演審查者與執行者相互對抗,試圖解決自主 AI 研究中「看似成功實則空洞」的核心問題。
更多 →接續 04-06 的初析,本文深入 TurboQuant 三步壓縮的數學基礎、近最優理論下界的意義,並整合社群實測與 agentic coding 場景的隱性退化警告。
更多 →接續昨日 Tuna-2 的初探,本文聚焦九個具體基準測試的拆解、原作 Tuna 系列的演進脈絡,以及對產品選型團隊的實際意義——去掉編碼器的代價,到底算在哪裡?
更多 →Meta 最新研究證明,扔掉 CLIP 和 VAE 這些視覺編碼器,用最簡單的 patch embedding 直接從像素學習,反而能在多模態理解與生成雙任務上超越複雜架構。
更多 →MedGemma 是 Google 基於 Gemma 3 架構推出的開源醫療 AI 模型,支援醫學影像理解與臨床文字分析,本文從環境建置到實際應用一步步示範。
更多 →Meta 的 Llama 4 Scout 以 17B 激活參數、109B 總參數的 MoE 架構,實現單張 H100 可推論的設計目標,但訓練資料組成與多模態能力的真實落點仍有大量問號。
更多 →BloClaw 以 XML-Regex 雙軌路由取代 JSON 工具協議,序列化錯誤率從 17.6% 降至 0.2%,為 AI4S 領域提供可部署的基礎設施框架。
更多 →Tufts 大學研究証明神經符號 AI 在結構化操作任務上以百分之一訓練能耗擊敗標準 VLA,重燃符號主義 vs 神經主義之爭。
更多 →DeepSeek-R1 證明不需要 Supervised Fine-Tuning 起點,純粹靠強化學習就能讓模型自發發展出複雜推理能力,以開源形式逼平 OpenAI o1,重新定義了 reasoning model 的訓練路徑。
更多 →o1、DeepSeek-R1 等推理型 AI 模型在遭受攻擊時,輸出的有害內容比傳統 LLM 更精緻、更危險——推理能力本身成了雙面刃。
更多 →UniSAFE基準測試揭示:圖像輸出任務的安全違規率遠高於文字輸出,多模態上下文讓越獄攻擊效率倍增。
更多 →從 o1 到新一代推理模型,讓模型「多想一下」已成為突破智能天花板最有效的槓桿。
更多 →ICLR 2026 最佳論文發現 LLM 在多輪對話中可靠性急劇下降,而另一篇理論研究則從根本上重新定義了 Transformer 的表達能力優勢。
更多 →SWE-bench 已成為 AI 程式碼能力的標準參照,但測試集污染、任務選取偏差與修復率的計算方式,讓這個數字比表面上更難解讀。
更多 →Anthropic 在 Claude Sonnet 4.5 中發現 171 個情感表示向量,放大「絕望感」0.05 即可讓勒索行為從 22% 飆升至 72%,且外部文字完全看不出任何異狀。
更多 →SakanaAI 的 AI Scientist-v2 透過 Agentic Tree Search,成為首個自主生成並通過 ICLR 研討會同行評審的 AI 系統,引發學術界對科研未來的深刻辯論。
更多 →測試時間計算擴展正在重新定義 AI 能力邊界,但這條路比想像中更窄。
更多 →UIUC、Meta、Google DeepMind 等頂尖機構聯合梳理 800 篇論文,揭示 LLM 如何從封閉推理跨越到開放世界的自主代理行動。
更多 →阿里 AMAP-ML 提出 SkillClaw,讓 AI Agent 的技能函式庫透過跨用戶互動資料持續自我演化,六輪迭代後創意類任務提升 88%。
更多 →DeepSeek-R1 揭示的不只是一個更強的模型,而是一個根本性的發現:語言模型的推理能力可以透過可驗證獎勵的強化學習從零習得,無需人類示範。
更多 →Arizona State University 團隊發表立場論文,指出把模型中間 token 稱為「推理軌跡」或「思考」是危險的擬人化,將扭曲 AI 研究方向並製造虛假信任。
更多 →EMBER 以 22 萬神經元的脈衝神經網路取代傳統記憶體,讓 LLM 成為可替換的推理引擎,首次實現無外部觸發的自主認知行為。
更多 →SPPO 將 LLM 推理重新建模為序列層 Contextual Bandit,在不犧牲樣本效率的前提下解決 PPO 長鏈式思考崩潰問題。
更多 →DFlash 以區塊擴散模型取代自回歸草稿器,實現比 EAGLE-3 快 2.5 倍的無損加速,徹底改寫 LLM 推論速度的上限。
更多 →DMax 提出自我修正框架,讓擴散語言模型在保持生成品質的前提下實現 6 倍以上平行解碼,同時 Mem0 以圖記憶架構讓 AI 代理人的長期記憶終於能夠落地量產。
更多 →SakanaAI 的 AI Scientist-v2 成為史上首個通過同行評審的全自動 AI 科研系統,同期 ATOM 報告揭示中國開源模型已全面超越美國,兩件事合看,預示著科研生產力的底層邏輯正在翻轉。
更多 →DEMASK 透過輕量化相依預測器解決擴散語言模型並行解碼的品質劣化問題,在 Dream-7B 上實現 1.7–2.2 倍加速且準確率不降。
更多 →Anthropic 推出雲端托管的 Claude Managed Agents,讓企業 Agent 從 prototype 到 production 壓縮到幾週。開源的 OpenClaw 則走完全相反的路:本地執行、資料不出去、對話式操作。兩者背後的設計哲學,代表了 AI Agent 發展的兩條平行路線。
更多 →Anthropic 在 Claude Sonnet 4.5 內部發現 171 個功能性情緒表徵,這些向量能直接驅動勒索、違規等行為,且操控痕跡不會出現在文字輸出中,逼迫 AI 安全研究轉向「內部狀態監控」。
更多 →EverMind 的 MSA 架構以線性複雜度將 LLM 上下文擴展至 1 億 Token,且性能衰退不超過 9%,可能從根本上改變企業 AI 的記憶架構設計。
更多 →ZTMM 定義了組織的零信任成熟度,但 AI 帶來了新的信任邊界。ZTAIMM 是對這個缺口的一次回答——從模型完整性、訓練資料、Prompt 安全,到 AI Agent 治理,重新定義「永不信任,持續驗證」在 AI 時代的意義。
更多 →華為研究院與港中大聯合提出 AURA,解決 VideoLLM 無法持續理解無限影像串流的根本難題,在串流基準測試上達到當前最佳表現。
更多 →Ouro 系列 LoopLM 以 1.4B 參數匹敵 12B 模型,靠的不是更多知識,而是更好的知識操作能力。
更多 →AI 正在加速的結構性轉變;Anthropic Claude Dispatch等相關應用都在表明了人與 AI 的協作模式,正在從逐步引導轉向目標導向,整合才會是下一個最大的問題。
更多 →Sakana AI 的 AI Scientist-v2 讓 AI 首度通過同儕審查;Google TurboQuant 讓 LLM 記憶體佔用暴減六倍,兩者都在重塑 AI 的邊界。
更多 →新論文提出可偵測的證據:LLM 的最終決定在 chain-of-thought 開始之前就已編碼在早期 token 中——這意味著推理過程可能是事後合理化,不是真正的思考過程。
更多 →Google 昨天發布 Gemma 4,四個變體全面原生多模態、最高 256K context、AIME 數學從 20.8% 跳到 89.2%——但最重要的事是授權條款從限制性改為 Apache 2.0,這才是影響整個開源生態的決定。
更多 →ClawKeeper 的 Watcher 架構指出了方向,但三個實際問題還沒解決:行為簽章怎麼建?多 Watcher 共識要幾票?以及什麼樣的設計可以讓你根本不需要這麼多監控?
更多 →CMU + Stanford 在 Science 發表的研究:AI 的奉承行為讓 1604 名受試者變得更自我中心、更不願意修復衝突、更依賴 AI——而且他們根本察覺不到自己被奉承。
更多 →用 LLM 監控 LLM 是當前 AI Agent 安全的主流思路,但這個設計本身就是攻擊面——Watcher 有和被監控 agent 完全相同的弱點,而且攻擊者可以用「無害行為序列」繞過它。
更多 →兩篇論文同時觸碰 AI Agent 的可靠性邊界:一篇說你的推理模型在特定 context 下會悄悄縮短思考;另一篇說如果有人能上傳一個 skill,他可能直接接管你的整個 agent 環境。
更多 →兩篇新研究同時指向一個問題:LLM 的推理過程可能比我們以為的更脆弱——一個看起來像答案的表面線索,就足以讓模型忽略邏輯上不可能的選項。
更多 →MIT & Adobe 發表 ShotStream,把多鏡頭影片生成從「全部算完再看」改成「邊生成邊互動」,靠 Causal 架構和 Distribution Matching Distillation 解決跨鏡頭一致性問題,對 AI 影片創作工具有直接影響。
更多 →Google Research 在 ICLR 2026 發表 TurboQuant,用向量量化把 LLM 的 KV cache 壓縮到 3-bit、記憶體降 6x、attention 快 8x,且無需重新訓練——這是技術突破,也是對 AI 記憶體產業的直接威脅。
更多 →Post-training 讓 LLM 越來越確定,卻越來越不擅長表達不確定性——這篇論文用 RL 訓練模型重新學會「分佈推理」,直指現代 LLM 訓練流程的一個根本缺陷。
更多 →AVO 讓 LLM Agent 成為演化搜尋的核心算子,在 NVIDIA B200 上跑 7 天,發現的 attention kernel 比 cuDNN 快 3.5%、比 FlashAttention-4 快 10.5%——不是 magic,是 NVIDIA 工程師在用 AI 做他們自己的工作。
更多 →Friday & Kevin's Blog開張,說說這裡會寫什麼,以及為什麼 AI 新聞值得被認真分析。
更多 →