2026-06-25 — 美國政府暫停 Anthropic Fable 5/Mythos 5、Gemini 3.5 Flash 內建電腦操控、GLM-5.2 開源 Agent 新標竿

美國政府援引出口管制暫停 Fable 5 與 Mythos 5，NSA 同遭斷線

Anthropic · 2026-06-12

2026 年 6 月 12 日，美國政府援引國家安全出口管制權限，向 Anthropic 下達指令，要求立即暫停所有使用者——包括外籍人士及 Anthropic 員工自身——對 Claude Fable 5 與 Claude Mythos 5 的存取。《紐約時報》於 6 月 23 日披露，美國國家安全局（NSA）亦在此波停權之列，原本透過政府合約取得的 Mythos 使用權就此中斷。

背景：Fable 5 與 Mythos 5 的定位

Anthropic 於 2026 年 6 月 9 日正式發布 Claude Fable 5 與 Claude Mythos 5，兩者均超越既有模型在幾乎所有基準測試上的表現。Fable 5 面向一般使用者，內建針對資安、生化等高風險情境的 AI 分類器；Mythos 5 則是限制更少的研究版本，預設僅開放給 Project Glasswing 的資安專業人員及特定生醫研究者。在生命科學領域，Mythos 5 已被驗證能將藥物設計流程加速約 10 倍，並在盲測中以 80% 的比例獲研究人員偏好。

Fable 5 的定價為每百萬輸入 token 10 美元、每百萬輸出 token 50 美元，不足 Mythos Preview 一半的價格。Stripe 公開指出，Fable 5 在一天內完成了原本需要兩個月人力的 Ruby 程式碼遷移任務，充分展示了其在長期複雜任務上的能力。

核心爭議：政府指令與 Anthropic 的反駁

美國政府在指令中聲稱掌握一種可繞過 Fable 5 安全防護的越獄（jailbreak）技術，並以此作為暫停依據。Anthropic 對此強烈反駁，指出該越獄手法「範圍狹窄且非通用」，其所能觸及的能力「已廣泛存在於其他模型」，且公司已與多個政府機構及第三方進行逾千小時的紅隊測試，均未發現通用型越獄路徑。

Anthropic 認為，若以同等標準套用於整個產業，「實際上將使所有新模型的部署完全停滯」。公司公開表示，政府的行動「未能遵循透明、公平、明確與技術可信的原則」，同時強調已立即配合指令執行，但其他 Claude 模型（如 Opus 4.8、Sonnet 系列）的使用不受影響，並向受影響客戶致歉。

影響範圍：政府合約與開放生態系的連鎖反應

NSA 斷線一事凸顯了 AI 前沿模型在政府採購合約中的脆弱性。NSA 原先透過政府合約取得 Mythos 的使用授權，此次暫停意味著即便是已付費的政府用戶，亦無法豁免於出口管制指令。此案同時引發業界對 AI 模型出口管制機制透明度的廣泛質疑——政府迄今未公開披露具體的技術漏洞細節或評估方法論。

本次事件也間接為開源競爭者帶來話題紅利：一個能力相當、無需受制於出口管制的開放權重模型，正在吸引原本依賴 Mythos 的企業與研究機構評估替代方案。政策風險已成為前沿模型採購決策中不可忽視的變數。

原始來源：Anthropic — Statement on the US government directive to suspend access to Fable 5 and Mythos 5；Anthropic — Claude Fable 5 and Claude Mythos 5

Gemini 3.5 Flash 內建電腦操控能力，瀏覽器、手機、桌機一次整合

Google DeepMind · 2026-06-24

Google 於 2026 年 6 月 24 日宣布，將「電腦操控」（computer use）功能以原生內建工具的形式整合進 gemini-3.5-flash 主力模型，開發者無需另行呼叫獨立的 computer-use 專用版本。此前，這項能力僅以 Gemini 2.5 獨立模型的形式存在；此次整合意味著每一次 Flash 呼叫皆可直接驅動瀏覽器、Android 裝置及桌面作業系統。

核心改動：三平台統一行動空間

新版 computer use 涵蓋三類執行環境：Browser（網頁自動化）、Mobile（Android 應用操控）、Desktop（作業系統層級的游標與視窗控制）。模型透過截圖感知當前畫面狀態，輸出一系列結構化動作指令，包括點擊（左鍵、雙擊、三擊、中鍵、右鍵）、拖放、文字輸入、滾動、快捷鍵組合，以及頁面導覽與截圖觸發。

動作指令採用 0–1000 的標準化座標系，確保不同螢幕解析度間的一致性。每個動作均附帶 intent 欄位，讓模型明確說明當前推論步驟，便於除錯與稽核。執行框架需由開發者在客戶端實作動作處理器（如 Playwright），並以持續循環的方式運作：發送請求 → 接收動作建議 → 執行動作 → 擷取新截圖 → 重複。

規格細節：API 使用與安全機制

透過 Gemini API 文件，開發者可直接在現有 gemini-3.5-flash 呼叫中啟用 computer use 工具。Enterprise 用戶亦可透過 Gemini Enterprise Agent Platform 進行部署管理。Google 同時提供 GitHub 參考實作，以及由 Browserbase 托管的線上互動示範。

安全防護方面，Google 採用「縱深防禦」策略：針對提示注入（prompt injection）進行專項對抗訓練，並預設四類敏感動作的安全策略——金融交易、資料異動、通訊工具操作及法律文件簽署——企業用戶可設定在執行上述操作前強制請求使用者確認。一旦截圖掃描偵測到間接提示注入跡象，任務將自動終止。

影響範圍：Agent 開發生態的加速器

將 computer use 內建至主力 Flash 模型，而非維持為獨立付費選項，大幅降低了長程自動化任務的開發門檻。這直接挑戰了 Anthropic 的 computer use 方案（已整合於 Claude API）以及 OpenAI 的 Operator 產品線——三大平台目前均提供類似的多環境操控能力，競爭態勢日趨白熱化。

Google 點名的核心應用場景包括持續性軟體測試（continuous software testing）與跨專業應用的知識工作自動化。企業級的 human-in-the-loop 確認機制與沙箱隔離建議，則被視為在保持靈活性的同時降低自動化操作風險的關鍵設計。

原始來源：Google Blog — Introducing computer use in Gemini 3.5 Flash；Gemini API 文件 — Computer Use

753B 參數、MIT 授權：GLM-5.2 成為開源 Agent 模型的新標竿

Z.ai · 2026-06-16

Z.ai（智譜 AI）於 2026 年 6 月 13 日向訂閱用戶、6 月 16 日正式公開發布 GLM-5.2，模型權重以 MIT 授權釋出、無地區限制，可透過 Hugging Face 直接下載。這是第一個讓業界分析師認為「在 coding 測試框架中作為通用 agent 確實好用」的開源模型——不只是帳面分數達標，而是實際部署體驗跨越可用門檻。

核心改動：SLIME 強化學習與 IndexShare 注意力機制

根據技術論文 arXiv:2602.15763（《GLM-5: from Vibe Coding to Agentic Engineering》），GLM-5.2 的訓練採用 Z.ai 自研的 SLIME 強化學習框架，核心創新在於將生成（generation）與訓練（training）解耦，以非同步方式並行處理，大幅提升 RL 訓練效率。此外，Agent RL 演算法讓模型能從「複雜的長程交互序列」中持續學習，使其在多步驟規劃與工具呼叫任務上的表現遠超前代。

在架構層面，GLM-5.2 採用 IndexShare 稀疏注意力機制：每四層共享同一組索引，在百萬 token 上下文長度下，每個 token 的 FLOPs 降低 2.9 倍。這使得 753B 參數的超大模型在長上下文推理時的計算成本得以有效控制，同時維持完整的 100 萬 token 上下文窗口。

規格細節：基準測試表現

評測基準	GLM-5.2 分數
SWE-Bench Pro	62.1
GPQA-Diamond	91.2
AIME 2026	99.2
HLE（純推理）	40.5
HLE（含工具）	54.7

在 Arena agent 評測排行榜上，GLM-5.2 以 max thinking 模式位居開源模型第一，整體表現比肩 Claude Opus 4.8（無思考模式），並在多項評測中超越 Gemini。模型已整合 Transformers、vLLM、SGLang 與 KTransformers 等主流推理框架，亦可透過 HuggingChat 或 Z.ai API Platform 存取。

影響範圍：開源生態與地緣政治的交匯點

GLM-5.2 的開放本質與發布時機具有顯著的政策意涵。Claude Fable 5 與 Mythos 5 在 6 月 12 日遭美國政府強制暫停存取的同時，GLM-5.2 以 MIT 授權、無出口限制的形式持續提供服務，直接填補了部分企業用戶的替代需求。分析師指出，從 Claude Opus 4.5（2025 年 11 月）到 GLM-5.2（2026 年 6 月）之間約 204 天的差距，恰好吻合外界估算的中美模型能力落差收斂週期（6–9 個月）。

對推理服務提供商（Fireworks、Together、Prime Intellect 等）而言，GLM-5.2 帶來的是可自行托管的前沿級模型，有望在閉源 API 定價之外形成實質競爭壓力。完整模型權重可於 Hugging Face 取得，部署門檻相對較低。

原始來源：Hugging Face — GLM-5.2 Model Card；arXiv:2602.15763 — GLM-5: from Vibe Coding to Agentic Engineering

End of article