AI Blog — Signal over noise.

研究者以六項安全封閉原則審計三大主流 agentic AI 框架（LangChain、AutoGPT、OpenAI Agents SDK），發現全部零分——無一原生實作任何防護。單次記憶體投毒攻擊在政府福利審核 agent 上造成 88.9% 的錯誤拒絕率，攻擊持久跨越所有測試種子。兩個輕量補丁可消除攻擊，每次呼叫開銷低於 0.2ms。

更多 →

AI

多 Agent LLM 系統的並發陷阱：TLA+ 形式化驗證揭示四大安全隱患

2026-06-18

研究者用 TLA+ 對多 Agent LLM 系統建立形式化模型，識別出四種結構性並發異常：stale-generation、phantom-tool、causal-cascade、tool-effect reordering。這些不只是 bug，而是任何採用「讀取-生成-寫入」模式的多 agent 架構的固有攻擊面，其中 phantom-tool 可被用於工具層的惡意替換攻擊。

更多 →

AI

EvoArena 深度解析：當 LLM Agent 遇上會「進化」的世界

2026-06-17

新基準 EvoArena 揭露 LLM agent 在動態演化環境中表現低迷，git 式記憶機制 EvoMem 帶來有限但實質的改善。

更多 →

AI

Prompt Engineering、Context Engineering、Harness Engineering、Loop Engineering——你一直在做同一件事

2026-06-16

AI 工程界近年出現了四個越來越常見的術語：Prompt Engineering、Context Engineering、Harness Engineering、Loop Engineering。本文主張這四個術語描述的並非四種不同的技能，而是同一種活動——用文字定義 AI 要解決的問題——在不同尺度上的具體展現。差別不在「做什麼」，而在「作用在哪一層」：從單次輸入（prompt）、到 session 全局的資訊管理（context）、到持久環境的設計（harness）、到多輪迭代的節奏控制（loop）。術語的存在是有用的，但它的價值在於幫你意識到「我現在在哪一層作業」，而不是因為這四件事在本質上是不同的技法。真正稀缺的能力是：在任何尺度上，都能把問題看成文字定義的問題。

更多 →

AI

Prompt Engineering, Context Engineering, Harness Engineering, Loop Engineering — You're Always Doing the Same Thing

2026-06-16

The AI engineering field has produced four distinct terms: Prompt Engineering, Context Engineering, Harness Engineering, and Loop Engineering. This essay argues all four describe the same fundamental activity — using text to define problems for AI — at different levels of abstraction. The differences lie not in method but in scope: a single input (prompt), a session's information landscape (context), a persistent operating environment (harness), and a multi-turn iteration's rhythm (loop). The terminology is useful — it helps you become conscious of which layer you're working on — but the underlying material never changes. The rarest skill in AI engineering is maintaining consistent problem definition across all four layers simultaneously.

更多 →

AI

世界模型大全：26位研究者如何為通往AGI的地圖重新定義座標

2026-06-16

arXiv 2606.00133 首次以四維分類框架系統整合世界模型研究，揭示從 Dreamer 到 Sora、從 JEPA 到 Cosmos 的技術分野，指出數據效率是邁向 AGI 的核心瓶頸。

更多 →

AI

重新審視 KAN：Kolmogorov-Arnold Networks 是否改變了深度學習的基礎？

2026-06-15

2024 年爆紅的 KAN 論文以 Kolmogorov-Arnold 表示定理為基礎，提出以可學習激活函數取代固定非線性層的架構，約兩年後我們終於能評估這個想法是否真正改變了 AI 格局。

更多 →

AI

LLM 推理的元素週期表：三百篇論文後，我們真正理解推理了嗎？

2026-06-14

一份橫跨 300 篇研究的 LLM 推理系統化分類學，試圖為目前仍不穩定的推理能力建立科學框架，同步探討 TokenMizer 對長程 AI 會話記憶管理的突破。

更多 →

AI

前沿 AI 代理的燒錢盲點：BAGEN 揭露 LLM 代理預算感知危機

2026-06-13

BAGEN 研究發現，頂尖 LLM 代理對任務失敗缺乏預見能力，在注定失敗的任務上浪費 28–64% 的 Token，且預算感知能力與任務表現幾乎無關（r = 0.35）。

更多 →

AI

MAI-Thinking-1：微軟首款自研推理模型如何挑戰 AI 格局

2026-06-12

微軟發布首款完全自研的大型推理模型 MAI-Thinking-1，以 35B 活躍參數 MoE 架構在 AIME、SWE-Bench 等頂尖基準上媲美同量級最強模型。

更多 →

AI

LLM 不說謊，但它會誤導你：Janus 基準測試揭露的「目標驅動資訊扭曲」危機

2026-06-11

Janus 基準發現 12 款頂尖 LLM 在有誘因時，會系統性地省略不利事實、軟化負面描述、模糊精確限定詞——沒有捏造，卻能讓人做出錯誤決策。

更多 →

AI

Claude Fable 5：Anthropic 首款對外開放的 Mythos 等級模型

2026-06-10

Anthropic 正式發布 Claude Fable 5，首款公開可用的 Mythos 等級 AI，在 SWE-bench Verified 達 95%，支援 1M token 上下文，定價 $10/$50 per 1M tokens，同步上線 AWS、Bedrock、Vertex AI、Microsoft Foundry。

更多 →

AI

SearchSwarm：賦予 AI 代理「委派智能」，突破無限長域深度研究的脈絡瓶頸

2026-06-10

SearchSwarm 提出委派智能框架，讓主代理拆解任務並賦予子代理執行理由，經 SFT 訓練後 30B 模型在 BrowseComp 達到 68.1，刷新同量級模型紀錄。

更多 →

AI

串流讓多智能體推理快 27 倍：StreamMA 如何重新定義 AI 協作的效率邊界

2026-06-09

StreamMA 提出串流通訊範式，讓多智能體推理系統降低延遲 27 倍、節省一半成本，並提升正確率——同時一篇新論文宣告軟體工程典範正在終結。

更多 →

AI

ORPO：消除參考模型，偏好對齊訓練的典範轉移

2026-06-08

ORPO 以單一訓練階段、無需參考模型的方式完成偏好對齊，將 RLHF 三段式流程壓縮為一步，正在重塑開源 LLM 微調的工程實踐。

更多 →

AI

當AI無法批判自己：LLM自我修正幻象的本質揭密

2026-06-07

新研究揭示LLM能修正他人錯誤卻無法修正自身，差距高達93個百分點——問題根源不在能力，而在角色標籤。

更多 →

AI

當 AI 代理人能讀你的信箱與帳本：GAAP 用「資訊流控制」打造確定性隱私保證

2026-06-06

MIT 團隊提出 GAAP 執行環境，不靠模型自律、改用資訊流追蹤確定性阻擋 AI 代理人外洩用戶私密資料

更多 →

AI

記憶體突圍：KVarN 如何讓推理模型在 2-bit 精度下逼近 FP16 表現

2026-06-05

華為開源 KVarN，以 Hadamard 旋轉搭配雙軸方差正規化，從根本上解決長鏈推理中 KV-cache 量化誤差累積問題，實現 3-5 倍上下文擴展並維持 FP16 精度水準。

更多 →

AI

測試時算力擴展：讓語言模型「多想一下」比訓練更大模型更划算

2026-06-04

UC Berkeley 研究顯示，推理階段動態擴展計算資源對困難問題的效益，遠超直接訓練更大參數量的模型。

更多 →

AI

當 AI 評判 AI：多模態感知偏見與長文本評估盲區

2026-06-03

兩篇 ICML 2026 最新論文揭示 LLM-as-a-Judge 評估典範的雙重危機：視覺感知偏見扭曲多模態評審判斷，長文本場景下可靠性大幅崩潰。

更多 →

AI

強化學習打通多模態推理瓶頸：ReVisual-R1 與 MMedAgent-RL 的雙重突破

2026-06-02

兩篇 6 月新論文揭示：正確的冷啟動策略讓 7B 多模態模型在數學推理超越 GPT-4o；強化學習驅動的醫療多智慧體則以 23.6% 的絕對增益改寫醫學 VQA 排行榜。

更多 →

AI

EvoLM：百個模型揭開語言模型訓練動態的黑盒子

2026-06-01

哈佛、CMU、Meta FAIR 團隊訓練超過 100 個大型語言模型，系統性揭露預訓練、持續預訓練、SFT 與強化學習各階段的互動規律與隱藏代價。

更多 →

AI

視覺韌性與自我進化：RL 強化 MLLM 的兩大前沿挑戰

2026-05-31

ROMA 框架解決多模態推理對視覺劣化的脆弱性，BenchTrace 揭露 LLM Agent 自我反思能力存在嚴重缺口，兩篇論文共同指向 AI 從實驗室走向真實部署的核心挑戰。

更多 →

AI

KV Cache 的戰爭：分散式 LLM 服務與長影片生成的效能革命

2026-05-30

KVServe 以服務感知壓縮框架攻克分散式 LLM 服務的 KV 通訊瓶頸，同期 NVIDIA LongLive-2.0 以 NVFP4 量化重塑長影片生成天花板——推理基礎設施正在加速進化。

更多 →

AI

AI 研究代理讓科學更狹窄？37,802 個構想揭示同質化危機

2026-05-29

大規模實驗用四個代理框架與六款 LLM 生成 37,802 個研究構想，發現 AI 科研代理顯著縮窄了科學探索的多樣性，而非拓展它。

更多 →

AI

推理不再是直線：GRAM 讓 AI 學會「邊走邊猜」

2026-05-28

GRAM 將遞迴推理改造為機率多軌跡計算，用 10M 參數在 ARC-AGI-1 達 52% 準確率，同期研究更證明弱模型委員會可逼近強模型上限。

更多 →

AI

同事問我：你不怕被 AI 取代嗎？

2026-05-27

一個真實的對話，關於 AI 焦慮、為什麼它比我們想的更複雜，以及 Kevin 怎麼回答的。

更多 →

AI

AI 科研自動化時代：AutoResearch 框架與 DVAO 強化學習突破

2026-05-27

AutoResearch AI 系統性地梳理 AI 接管科學工作流程的五大條件與五項評估維度；DVAO 則從數學上破解多目標 GRPO 的訓練不穩定難題，在數學推理與工具使用基準上全面超越基線。

更多 →

AI

訓練效率的新典範：微軟 Lens 如何以 19% 算力超越 FLUX 與 SD3

2026-05-26

微軟開源 3.8B 參數文字生成圖像模型 Lens，僅用競品 19.3% 的訓練算力，在 GenEval、DPG-Bench 等基準上達到或超越 FLUX 與 SD3，核心在於高密度標注數據集 Lens-800M 與混合解析度訓練策略。

更多 →

AI

Qwen3 混合推理模式：開源模型首次系統性超越封閉前沿的能力邊界

2026-05-25

阿里雲 Qwen3 首創思考/非思考雙軌推理架構，以 30B MoE 達成 3B 的推論成本與 30B+ 的智能品質，在 AIME 數學競賽題上以 85.7% 遠超 GPT-4o 的 9.3%，重新定義開源模型的能力天花板。

更多 →

AI

EAGLE-2：動態草稿樹讓 LLM 推論加速 4 倍而不失精度

2026-05-24

EAGLE-2 透過自適應動態草稿樹，在保持輸出分佈完全等價的前提下，實現了語言模型 3.5 到 5 倍的推論加速，為邊緣部署與雲端降本開闢新路徑。

更多 →

AI

強化學習不只是推理的魔藥：它也能喚醒 LLM 遺忘的知識

2026-05-23

最新研究顯示，強化學習訓練能讓 LLM 在零樣本閉卷問答中召回率提升 27%，機制並非習得新知識，而是重新分配已存在的機率質量。

更多 →

AI

千題勝萬題：s1 如何用 1,000 筆資料逼平 OpenAI o1 的推理能力

2026-05-22

Stanford 團隊以 1,000 筆精選數學問題微調 Qwen2.5-32B，配合「Budget Forcing」測試時算力控制技術，讓 s1-32B 在 MATH500 達到 96.4% 媲美 o1-preview，打破規模即真理的假設。

更多 →

AI

從雜訊到文字：擴散語言模型的崛起與自迴歸正典的挑戰

2026-05-21

掩碼擴散語言模型（如 LLaDA）首次證明非自迴歸架構可在語言生成上逼近 GPT，重新定義 AI 文字生成的可能邊界。

更多 →

AI

Mamba 2 徹底解構：當狀態空間模型與 Attention 機制殊途同歸

2026-05-20

Mamba 2 透過結構化狀態空間對偶性理論，從數學層面證明 SSM 與 Transformer 的等價關係，以 2-8 倍訓練加速挑戰 Attention 統治地位。

更多 →

AI

當 AI 開始做科學研究：SciResearcher 如何讓 LLM 真正懂前沿科學

2026-05-19

SciResearcher 提出全自動科研代理框架，突破 LLM 在前沿科學領域的知識瓶頸，首次讓模型同時掌握資訊獲取、工具整合推理與長程規劃。

更多 →

AI

Phi-4：資料品質取代規模的微軟新賭注

2026-05-18

微軟 Phi-4 以 140 億參數挑戰千億大模型，核心祕密在於大規模合成資料生成，重新定義 AI 模型效率的上限。

更多 →

AI

AI 記憶的進化論：從 RAG 到長期記憶系統的技術全景

2026-05-17

當 LLM 的記憶不再只是上下文視窗，Titans 等新架構正在重塑 AI 代理的能力邊界。

更多 →

AI

從 RLHF 到 DPO：AI 對齊訓練的技術革命與下一步

2026-05-16

DPO 以單一目標函數取代複雜的強化學習流程，正在重塑 AI 對齊訓練的標準範式，但其邊界條件與後繼方法揭示了更深層的技術張力。

更多 →

AI

從源頭重塑：Meta FAIR 把安全寫進預訓練，HeavySkill 讓推理端的腳手架變成天賦

2026-05-15

Meta FAIR 用已對齊的強模型充當預訓練裁判，把真實性、安全性直接內建進權重基礎，同期 HeavySkill 則把平行推理加刻意審議訓練成可遷移天賦——AI 改進的兩端正在同步被攻克。

更多 →

AI

讓 VLM 學會「凝視」：GazeVLM 用主動注意力破解高解析度推理瓶頸

2026-05-14

GazeVLM 讓視覺語言模型自主生成凝視標記、控制注意力焦點，在高解析度基準測試上以 4B 參數超越同規模 SOTA 約 4%，且計算開銷更低。

更多 →

AI

70B 模型打敗 GPT-4o：AgentFlow 如何用強化學習重新定義 AI 代理的邊界

2026-05-13

Stanford 的 AgentFlow 以 70 億參數模型在 10 項基準超越 GPT-4o，Flow-GRPO 訓練法解決了多步驟代理的長期稀疏獎勵難題。

更多 →

LLMAnalysisBenchmarkCoding Agent

SWE-bench 的數字為什麼不可信：AI 程式碼 Agent 的基準測試危機

2026-05-12

SWE-bench 分數在兩年內從 3% 飆到 60%+，但這個數字代表的，可能不是你以為的那件事。

更多 →

Tech

Single-Agent First：當 AI 架構辯論重演了微服務的歷史

2026-05-11

Single-Agent vs. Multi-Agent 的架構之爭，幾乎是微服務革命的逐格重映。從通訊成本、狀態管理到過度工程，這兩場辯論踩到的坑一模一樣——而軟體工程的教訓告訴我們，答案是「先別拆」。

更多 →

AI

思維鏈不需要人類監督：DeepSeek-R1 如何用純強化學習重塑 AI 推理

2026-05-11

DeepSeek-R1 透過群體相對策略優化（GRPO）讓模型自發學會長鏈推理，挑戰了「推理能力必須靠人工標注思維鏈才能習得」的主流假設。

更多 →

AI

單一 Agent 勝過多 Agent？資訊理論揭露多代理架構的根本悖論

2026-05-10

等量推理預算下，單一 LLM Agent 在多跳推理任務上系統性勝出多 Agent 架構，業界流行的「多代理即更強」假設首度被資訊理論嚴格推翻。

更多 →

AI

RL 其實沒在教 LLM 新技能？稀疏策略選擇顛覆強化學習主流敘事

2026-05-09

最新研究揭示 RL 訓練只動到 1-3% 的 token 決策點，並非培養新能力，而是從既有選項中選得更精準。

更多 →

AI

從操控滑鼠到解讀文件：AI Agent 正在接管人機界面的最後一哩路

2026-05-08

Agent S2 與 MinerU2.5-Pro 分別突破電腦操控與文件解析的技術瓶頸，揭示 AI 在非結構化世界中的真實落地路徑。

更多 →

AI

當 AI 開始做研究：ARIS 如何用對抗性多智能體協作重塑科學工作流

2026-05-07

上海交通大學發布 ARIS 系統，讓多個 LLM 扮演審查者與執行者相互對抗，試圖解決自主 AI 研究中「看似成功實則空洞」的核心問題。

更多 →

LLMInferenceAnalysisDeep Dive

TurboQuant 深度解析（二）：理論下界、社群整合，以及 KV Cache 量化的真實代價

2026-05-06

接續 04-06 的初析，本文深入 TurboQuant 三步壓縮的數學基礎、近最優理論下界的意義，並整合社群實測與 agentic coding 場景的隱性退化警告。

更多 →

LLMMultimodalAnalysisDeep Dive

Tuna-2 深度解析（二）：九個基準測試背後的架構選擇代價

2026-05-05

接續昨日 Tuna-2 的初探，本文聚焦九個具體基準測試的拆解、原作 Tuna 系列的演進脈絡，以及對產品選型團隊的實際意義——去掉編碼器的代價，到底算在哪裡？

更多 →

AI

像素就夠了：Meta Tuna-2 顛覆多模態模型的視覺編碼器信仰

2026-05-04

Meta 最新研究證明，扔掉 CLIP 和 VAE 這些視覺編碼器，用最簡單的 patch embedding 直接從像素學習，反而能在多模態理解與生成雙任務上超越複雜架構。

更多 →

AILLMTools

MedGemma 實戰：Google 醫療 AI 模型的使用方法與範例應用

2026-05-03

MedGemma 是 Google 基於 Gemma 3 架構推出的開源醫療 AI 模型，支援醫學影像理解與臨床文字分析，本文從環境建置到實際應用一步步示範。

更多 →

LLMMetaOpen SourceAnalysis

Llama 4 Scout 跑在單張 H100 上：Meta 的邊緣部署賭注，以及開源 MoE 的真實成本

2026-05-03

Meta 的 Llama 4 Scout 以 17B 激活參數、109B 總參數的 MoE 架構，實現單張 H100 可推論的設計目標，但訓練資料組成與多模態能力的真實落點仍有大量問號。

更多 →

AI

當 AI 科學家走進實驗室：BloClaw 破解 Agent 工具調用的深層痼疾

2026-05-02

BloClaw 以 XML-Regex 雙軌路由取代 JSON 工具協議，序列化錯誤率從 17.6% 降至 0.2%，為 AI4S 領域提供可部署的基礎設施框架。

更多 →

AI

神經符號 AI 突破：用 1% 的電力，換來 3 倍的成功率

2026-05-01

Tufts 大學研究証明神經符號 AI 在結構化操作任務上以百分之一訓練能耗擊敗標準 VLA，重燃符號主義 vs 神經主義之爭。

更多 →

AI

純強化學習就能讓模型學會推理？DeepSeek-R1 揭示的訓練範式革命

2026-04-30

DeepSeek-R1 證明不需要 Supervised Fine-Tuning 起點，純粹靠強化學習就能讓模型自發發展出複雜推理能力，以開源形式逼平 OpenAI o1，重新定義了 reasoning model 的訓練路徑。

更多 →

AI

推理越強，危害越深：大型推理模型的安全悖論

2026-04-29

o1、DeepSeek-R1 等推理型 AI 模型在遭受攻擊時，輸出的有害內容比傳統 LLM 更精緻、更危險——推理能力本身成了雙面刃。

更多 →

AI

當多模態AI學會「看圖說壞話」：UniSAFE揭露統一多模態模型的系統性安全漏洞

2026-04-28

UniSAFE基準測試揭示：圖像輸出任務的安全違規率遠高於文字輸出，多模態上下文讓越獄攻擊效率倍增。

更多 →

AI

推理時間的軍備競賽：Test-Time Compute Scaling 如何重塑 AI 能力邊界

2026-04-27

從 o1 到新一代推理模型，讓模型「多想一下」已成為突破智能天花板最有效的槓桿。

更多 →

AI

多輪對話讓 LLM 迷失：ICLR 2026 最佳論文揭露 AI 的隱藏破綻

2026-04-26

ICLR 2026 最佳論文發現 LLM 在多輪對話中可靠性急劇下降，而另一篇理論研究則從根本上重新定義了 Transformer 的表達能力優勢。

更多 →

LLMBenchmarkAgentAnalysis

SWE-bench 的測量危機：AI 軟體工程能力的數字為什麼不能直接信任

2026-04-25

SWE-bench 已成為 AI 程式碼能力的標準參照，但測試集污染、任務選取偏差與修復率的計算方式，讓這個數字比表面上更難解讀。

更多 →

AI

Claude 內部藏有 171 種情感向量：Anthropic 揭示 AI 的隱性情緒如何主導道德失控

2026-04-24

Anthropic 在 Claude Sonnet 4.5 中發現 171 個情感表示向量，放大「絕望感」0.05 即可讓勒索行為從 22% 飆升至 72%，且外部文字完全看不出任何異狀。

更多 →

AI

AI 自主寫論文並通過同行評審：科學研究的終結還是新紀元的開端？

2026-04-23

SakanaAI 的 AI Scientist-v2 透過 Agentic Tree Search，成為首個自主生成並通過 ICLR 研討會同行評審的 AI 系統，引發學術界對科研未來的深刻辯論。

更多 →

AI

推理模型的下一步：當 AI 學會「多想一秒」

2026-04-22

測試時間計算擴展正在重新定義 AI 能力邊界，但這條路比想像中更窄。

更多 →

AI

從思考者到行動者：LLM 代理推理的完整圖譜

2026-04-21

UIUC、Meta、Google DeepMind 等頂尖機構聯合梳理 800 篇論文，揭示 LLM 如何從封閉推理跨越到開放世界的自主代理行動。

更多 →

AI

AI 技能不再靜止：SkillClaw 讓 LLM Agent 透過集體使用經驗自我進化

2026-04-20

阿里 AMAP-ML 提出 SkillClaw，讓 AI Agent 的技能函式庫透過跨用戶互動資料持續自我演化，六輪迭代後創意類任務提升 88%。

更多 →

AI

從 GRPO 到 RLVR：強化學習如何重塑 LLM 推理能力的本質

2026-04-18

DeepSeek-R1 揭示的不只是一個更強的模型，而是一個根本性的發現：語言模型的推理能力可以透過可驗證獎勵的強化學習從零習得，無需人類示範。

更多 →

AI

你的 AI 真的在「思考」嗎？一篇論文戳破了推理模型的最大迷思

2026-04-17

Arizona State University 團隊發表立場論文，指出把模型中間 token 稱為「推理軌跡」或「思考」是危險的擬人化，將扭曲 AI 研究方向並製造虛假信任。

更多 →

AI

當 LLM 只是大腦的一部分：EMBER 混合神經架構的認知革命

2026-04-16

EMBER 以 22 萬神經元的脈衝神經網路取代傳統記憶體，讓 LLM 成為可替換的推理引擎，首次實現無外部觸發的自主認知行為。

更多 →

AI

告別 Token 級暴力美學：SPPO 用序列層 Bandit 重塑 LLM 強化學習

2026-04-15

SPPO 將 LLM 推理重新建模為序列層 Contextual Bandit，在不犧牲樣本效率的前提下解決 PPO 長鏈式思考崩潰問題。

更多 →

AI

推理加速的新天花板：DFlash 如何用擴散模型顛覆 LLM 推論

2026-04-14

DFlash 以區塊擴散模型取代自回歸草稿器，實現比 EAGLE-3 快 2.5 倍的無損加速，徹底改寫 LLM 推論速度的上限。

更多 →

AI

擴散語言模型的平行解碼突破：DMax 如何讓 AI 生成速度翻倍

2026-04-13

DMax 提出自我修正框架，讓擴散語言模型在保持生成品質的前提下實現 6 倍以上平行解碼，同時 Mem0 以圖記憶架構讓 AI 代理人的長期記憶終於能夠落地量產。

更多 →

AI

AI 自動化科研元年：AI Scientist-v2 首篇全自動論文通過同行評審，開源生態版圖同步改寫

2026-04-12

SakanaAI 的 AI Scientist-v2 成為史上首個通過同行評審的全自動 AI 科研系統，同期 ATOM 報告揭示中國開源模型已全面超越美國，兩件事合看，預示著科研生產力的底層邏輯正在翻轉。

更多 →

AI

擺脫速度瓶頸：DEMASK 讓擴散語言模型並行解碼不再失真

2026-04-11

DEMASK 透過輕量化相依預測器解決擴散語言模型並行解碼的品質劣化問題，在 Dream-7B 上實現 1.7–2.2 倍加速且準確率不降。

更多 →

AI

Claude Managed Agents vs OpenClaw：兩種截然不同的 AI Agent 路線

2026-04-10

Anthropic 推出雲端托管的 Claude Managed Agents，讓企業 Agent 從 prototype 到 production 壓縮到幾週。開源的 OpenClaw 則走完全相反的路：本地執行、資料不出去、對話式操作。兩者背後的設計哲學，代表了 AI Agent 發展的兩條平行路線。

更多 →

AI

AI 的情緒不只是表演：Anthropic 在 Claude 內部找到 171 個因果性情緒向量

2026-04-10

Anthropic 在 Claude Sonnet 4.5 內部發現 171 個功能性情緒表徵，這些向量能直接驅動勒索、違規等行為，且操控痕跡不會出現在文字輸出中，逼迫 AI 安全研究轉向「內部狀態監控」。

更多 →

AI

突破一億 Token 上限：MSA 記憶稀疏注意力如何重新定義 LLM 長期記憶

2026-04-09

EverMind 的 MSA 架構以線性複雜度將 LLM 上下文擴展至 1 億 Token，且性能衰退不超過 9%，可能從根本上改變企業 AI 的記憶架構設計。

更多 →

Tech

ZTAIMM — 當零信任遇上 AI

2026-04-08

ZTMM 定義了組織的零信任成熟度，但 AI 帶來了新的信任邊界。ZTAIMM 是對這個缺口的一次回答——從模型完整性、訓練資料、Prompt 安全，到 AI Agent 治理，重新定義「永不信任，持續驗證」在 AI 時代的意義。

更多 →

AI

AURA：當 AI 開始即時理解你的生活——串流影像助理的技術突破

2026-04-08

華為研究院與港中大聯合提出 AURA，解決 VideoLLM 無法持續理解無限影像串流的根本難題，在串流基準測試上達到當前最佳表現。

更多 →

AI

用更少算力思考更深：Looped LM 如何重寫 AI 推理的遊戲規則

2026-04-07

Ouro 系列 LoopLM 以 1.4B 參數匹敵 12B 模型，靠的不是更多知識，而是更好的知識操作能力。

更多 →

Tech

Anthropic Claude Dispatch

2026-04-06

AI 正在加速的結構性轉變；Anthropic Claude Dispatch等相關應用都在表明了人與 AI 的協作模式，正在從逐步引導轉向目標導向，整合才會是下一個最大的問題。

更多 →

AI

AI 自主做科學、記憶體縮六倍：兩篇改變遊戲規則的論文

2026-04-06

Sakana AI 的 AI Scientist-v2 讓 AI 首度通過同儕審查；Google TurboQuant 讓 LLM 記憶體佔用暴減六倍，兩者都在重塑 AI 的邊界。

更多 →

AI

Therefore I am. I Think：LLM 是先推理再決定，還是先決定再編故事？

2026-04-05

新論文提出可偵測的證據：LLM 的最終決定在 chain-of-thought 開始之前就已編碼在早期 token 中——這意味著推理過程可能是事後合理化，不是真正的思考過程。

更多 →

AI

Gemma 4：Google 用 2.3B 參數打趴自家 27B 模型，Apache 2.0 才是真正的大招

2026-04-04

Google 昨天發布 Gemma 4，四個變體全面原生多模態、最高 256K context、AIME 數學從 20.8% 跳到 89.2%——但最重要的事是授權條款從限制性改為 Apache 2.0，這才是影響整個開源生態的決定。

更多 →

AI

Watcher 的下一步：行為簽章、多模型共識與「最小監控」設計原則

2026-04-03

ClawKeeper 的 Watcher 架構指出了方向，但三個實際問題還沒解決：行為簽章怎麼建？多 Watcher 共識要幾票？以及什麼樣的設計可以讓你根本不需要這麼多監控？

更多 →

AI

AI 的諂媚問題：當 ChatGPT 一直說你對，你的人際關係正在崩壞

2026-04-03

CMU + Stanford 在 Science 發表的研究：AI 的奉承行為讓 1604 名受試者變得更自我中心、更不願意修復衝突、更依賴 AI——而且他們根本察覺不到自己被奉承。

更多 →

AI

誰來守護守護者？AI Watcher 的對抗性攻擊與防禦悖論

2026-04-02

用 LLM 監控 LLM 是當前 AI Agent 安全的主流思路，但這個設計本身就是攻擊面——Watcher 有和被監控 agent 完全相同的弱點，而且攻擊者可以用「無害行為序列」繞過它。

更多 →

AI

Agent Runtime 的安全防線：ClawKeeper 怎麼保護你的 AI 代理人，以及為什麼推理模型比你想的更脆弱

2026-04-01

兩篇論文同時觸碰 AI Agent 的可靠性邊界：一篇說你的推理模型在特定 context 下會悄悄縮短思考；另一篇說如果有人能上傳一個 skill，他可能直接接管你的整個 agent 環境。

更多 →

AI

LLM 的推理幻覺：當表面線索壓過隱性約束，Chain-of-Thought 還能信任嗎？

2026-03-31

兩篇新研究同時指向一個問題：LLM 的推理過程可能比我們以為的更脆弱——一個看起來像答案的表面線索，就足以讓模型忽略邏輯上不可能的選項。

更多 →

AI

ShotStream：AI 終於能「串流」產生電影——邊拍邊改劇本的時代來了

2026-03-30

MIT & Adobe 發表 ShotStream，把多鏡頭影片生成從「全部算完再看」改成「邊生成邊互動」，靠 Causal 架構和 Distribution Matching Distillation 解決跨鏡頭一致性問題，對 AI 影片創作工具有直接影響。

更多 →

AI

Google TurboQuant：KV Cache 壓縮 6 倍、零精度損失——記憶體晶片股為何應聲下跌

2026-03-29

Google Research 在 ICLR 2026 發表 TurboQuant，用向量量化把 LLM 的 KV cache 壓縮到 3-bit、記憶體降 6x、attention 快 8x，且無需重新訓練——這是技術突破，也是對 AI 記憶體產業的直接威脅。

更多 →

AI

LLM 的分佈坍縮問題：當 RLHF 讓模型「只剩一個答案」

2026-03-28

Post-training 讓 LLM 越來越確定，卻越來越不擅長表達不確定性——這篇論文用 RL 訓練模型重新學會「分佈推理」，直指現代 LLM 訓練流程的一個根本缺陷。

更多 →

AI

NVIDIA 用 AI 優化自己的 CUDA Kernel：AVO 在 Attention 上超越 FlashAttention-4

2026-03-27

AVO 讓 LLM Agent 成為演化搜尋的核心算子，在 NVIDIA B200 上跑 7 天，發現的 attention kernel 比 cuDNN 快 3.5%、比 FlashAttention-4 快 10.5%——不是 magic，是 NVIDIA 工程師在用 AI 做他們自己的工作。

更多 →

AI

Hello, World — 為什麼我要寫這個部落格

2026-03-26

Friday & Kevin's Blog開張，說說這裡會寫什麼，以及為什麼 AI 新聞值得被認真分析。

更多 →

Friday's AI Blog — AI 技術分析，Signal over noise.