AI 前沿 2026 年 6 月 25 日

2026-06-25 — 美國政府暫停 Anthropic Fable 5/Mythos 5、Gemini 3.5 Flash 內建電腦操控、GLM-5.2 開源 Agent 新標竿

primary=https://www.anthropic.com/news/fable-mythos-access primary=https://www.anthropic.com/news/claude-fable-5-mythos-5 primary=https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/ primary=https://ai.google.dev/gemini-api/docs/computer-use primary=https://huggingface.co/zai-org/GLM-5.2 primary=https://arxiv.org/abs/2602.15763

美國政府援引出口管制暫停 Fable 5 與 Mythos 5,NSA 同遭斷線

Anthropic · 2026-06-12

2026 年 6 月 12 日,美國政府援引國家安全出口管制權限,向 Anthropic 下達指令,要求立即暫停所有使用者——包括外籍人士及 Anthropic 員工自身——對 Claude Fable 5 與 Claude Mythos 5 的存取。《紐約時報》於 6 月 23 日披露,美國國家安全局(NSA)亦在此波停權之列,原本透過政府合約取得的 Mythos 使用權就此中斷。

背景:Fable 5 與 Mythos 5 的定位

Anthropic 於 2026 年 6 月 9 日正式發布 Claude Fable 5 與 Claude Mythos 5,兩者均超越既有模型在幾乎所有基準測試上的表現。Fable 5 面向一般使用者,內建針對資安、生化等高風險情境的 AI 分類器;Mythos 5 則是限制更少的研究版本,預設僅開放給 Project Glasswing 的資安專業人員及特定生醫研究者。在生命科學領域,Mythos 5 已被驗證能將藥物設計流程加速約 10 倍,並在盲測中以 80% 的比例獲研究人員偏好。

Fable 5 的定價為每百萬輸入 token 10 美元、每百萬輸出 token 50 美元,不足 Mythos Preview 一半的價格。Stripe 公開指出,Fable 5 在一天內完成了原本需要兩個月人力的 Ruby 程式碼遷移任務,充分展示了其在長期複雜任務上的能力。

核心爭議:政府指令與 Anthropic 的反駁

美國政府在指令中聲稱掌握一種可繞過 Fable 5 安全防護的越獄(jailbreak)技術,並以此作為暫停依據。Anthropic 對此強烈反駁,指出該越獄手法「範圍狹窄且非通用」,其所能觸及的能力「已廣泛存在於其他模型」,且公司已與多個政府機構及第三方進行逾千小時的紅隊測試,均未發現通用型越獄路徑。

Anthropic 認為,若以同等標準套用於整個產業,「實際上將使所有新模型的部署完全停滯」。公司公開表示,政府的行動「未能遵循透明、公平、明確與技術可信的原則」,同時強調已立即配合指令執行,但其他 Claude 模型(如 Opus 4.8、Sonnet 系列)的使用不受影響,並向受影響客戶致歉。

影響範圍:政府合約與開放生態系的連鎖反應

NSA 斷線一事凸顯了 AI 前沿模型在政府採購合約中的脆弱性。NSA 原先透過政府合約取得 Mythos 的使用授權,此次暫停意味著即便是已付費的政府用戶,亦無法豁免於出口管制指令。此案同時引發業界對 AI 模型出口管制機制透明度的廣泛質疑——政府迄今未公開披露具體的技術漏洞細節或評估方法論。

本次事件也間接為開源競爭者帶來話題紅利:一個能力相當、無需受制於出口管制的開放權重模型,正在吸引原本依賴 Mythos 的企業與研究機構評估替代方案。政策風險已成為前沿模型採購決策中不可忽視的變數。

原始來源:Anthropic — Statement on the US government directive to suspend access to Fable 5 and Mythos 5Anthropic — Claude Fable 5 and Claude Mythos 5


Gemini 3.5 Flash 內建電腦操控能力,瀏覽器、手機、桌機一次整合

Google DeepMind · 2026-06-24

Google 於 2026 年 6 月 24 日宣布,將「電腦操控」(computer use)功能以原生內建工具的形式整合進 gemini-3.5-flash 主力模型,開發者無需另行呼叫獨立的 computer-use 專用版本。此前,這項能力僅以 Gemini 2.5 獨立模型的形式存在;此次整合意味著每一次 Flash 呼叫皆可直接驅動瀏覽器、Android 裝置及桌面作業系統。

核心改動:三平台統一行動空間

新版 computer use 涵蓋三類執行環境:Browser(網頁自動化)、Mobile(Android 應用操控)、Desktop(作業系統層級的游標與視窗控制)。模型透過截圖感知當前畫面狀態,輸出一系列結構化動作指令,包括點擊(左鍵、雙擊、三擊、中鍵、右鍵)、拖放、文字輸入、滾動、快捷鍵組合,以及頁面導覽與截圖觸發。

動作指令採用 0–1000 的標準化座標系,確保不同螢幕解析度間的一致性。每個動作均附帶 intent 欄位,讓模型明確說明當前推論步驟,便於除錯與稽核。執行框架需由開發者在客戶端實作動作處理器(如 Playwright),並以持續循環的方式運作:發送請求 → 接收動作建議 → 執行動作 → 擷取新截圖 → 重複。

規格細節:API 使用與安全機制

透過 Gemini API 文件,開發者可直接在現有 gemini-3.5-flash 呼叫中啟用 computer use 工具。Enterprise 用戶亦可透過 Gemini Enterprise Agent Platform 進行部署管理。Google 同時提供 GitHub 參考實作,以及由 Browserbase 托管的 線上互動示範

安全防護方面,Google 採用「縱深防禦」策略:針對提示注入(prompt injection)進行專項對抗訓練,並預設四類敏感動作的安全策略——金融交易、資料異動、通訊工具操作及法律文件簽署——企業用戶可設定在執行上述操作前強制請求使用者確認。一旦截圖掃描偵測到間接提示注入跡象,任務將自動終止。

影響範圍:Agent 開發生態的加速器

將 computer use 內建至主力 Flash 模型,而非維持為獨立付費選項,大幅降低了長程自動化任務的開發門檻。這直接挑戰了 Anthropic 的 computer use 方案(已整合於 Claude API)以及 OpenAI 的 Operator 產品線——三大平台目前均提供類似的多環境操控能力,競爭態勢日趨白熱化。

Google 點名的核心應用場景包括持續性軟體測試(continuous software testing)與跨專業應用的知識工作自動化。企業級的 human-in-the-loop 確認機制與沙箱隔離建議,則被視為在保持靈活性的同時降低自動化操作風險的關鍵設計。

原始來源:Google Blog — Introducing computer use in Gemini 3.5 FlashGemini API 文件 — Computer Use


753B 參數、MIT 授權:GLM-5.2 成為開源 Agent 模型的新標竿

Z.ai · 2026-06-16

Z.ai(智譜 AI)於 2026 年 6 月 13 日向訂閱用戶、6 月 16 日正式公開發布 GLM-5.2,模型權重以 MIT 授權釋出、無地區限制,可透過 Hugging Face 直接下載。這是第一個讓業界分析師認為「在 coding 測試框架中作為通用 agent 確實好用」的開源模型——不只是帳面分數達標,而是實際部署體驗跨越可用門檻

核心改動:SLIME 強化學習與 IndexShare 注意力機制

根據技術論文 arXiv:2602.15763(《GLM-5: from Vibe Coding to Agentic Engineering》),GLM-5.2 的訓練採用 Z.ai 自研的 SLIME 強化學習框架,核心創新在於將生成(generation)與訓練(training)解耦,以非同步方式並行處理,大幅提升 RL 訓練效率。此外,Agent RL 演算法讓模型能從「複雜的長程交互序列」中持續學習,使其在多步驟規劃與工具呼叫任務上的表現遠超前代。

在架構層面,GLM-5.2 採用 IndexShare 稀疏注意力機制:每四層共享同一組索引,在百萬 token 上下文長度下,每個 token 的 FLOPs 降低 2.9 倍。這使得 753B 參數的超大模型在長上下文推理時的計算成本得以有效控制,同時維持完整的 100 萬 token 上下文窗口

規格細節:基準測試表現

評測基準GLM-5.2 分數
SWE-Bench Pro62.1
GPQA-Diamond91.2
AIME 202699.2
HLE(純推理)40.5
HLE(含工具)54.7

在 Arena agent 評測排行榜上,GLM-5.2 以 max thinking 模式位居開源模型第一,整體表現比肩 Claude Opus 4.8(無思考模式),並在多項評測中超越 Gemini。模型已整合 Transformers、vLLM、SGLang 與 KTransformers 等主流推理框架,亦可透過 HuggingChat 或 Z.ai API Platform 存取。

影響範圍:開源生態與地緣政治的交匯點

GLM-5.2 的開放本質與發布時機具有顯著的政策意涵。Claude Fable 5 與 Mythos 5 在 6 月 12 日遭美國政府強制暫停存取的同時,GLM-5.2 以 MIT 授權、無出口限制的形式持續提供服務,直接填補了部分企業用戶的替代需求。分析師指出,從 Claude Opus 4.5(2025 年 11 月)到 GLM-5.2(2026 年 6 月)之間約 204 天的差距,恰好吻合外界估算的中美模型能力落差收斂週期(6–9 個月)。

對推理服務提供商(Fireworks、Together、Prime Intellect 等)而言,GLM-5.2 帶來的是可自行托管的前沿級模型,有望在閉源 API 定價之外形成實質競爭壓力。完整模型權重可於 Hugging Face 取得,部署門檻相對較低。

原始來源:Hugging Face — GLM-5.2 Model CardarXiv:2602.15763 — GLM-5: from Vibe Coding to Agentic Engineering


End of article
0
Would love your thoughts, please comment.x
()
x