2026-05-24 — Anthropic Glasswing 首月發現逾萬漏洞、Agent 多輪安全基準 44% 攻擊成功率

Anthropic Project Glasswing 首次進度更新：AI 輔助漏洞挖掘與修補的大規模試驗

Anthropic Newsroom · 2026-05-22

Anthropic 於 2026 年 5 月 22 日發布 Project Glasswing 的初步進度報告，這是一個集合約 50 個組織的協作計畫，目標是在 AI 系統具備大規模利用漏洞能力之前，先主動識別並修補關鍵基礎設施軟體中的安全漏洞。參與夥伴包含 Cloudflare、Mozilla、Microsoft、Oracle、Palo Alto Networks 等主要科技與資安公司，以及英國 AI Security Institute 和 Open Source Security Foundation 的 Alpha-Omega 計畫。

第一個月的量化成果

Glasswing 使用的核心技術為 Mythos Preview，這是 Anthropic 的安全專向模型。根據報告，Mythos Preview 是首個能端對端完成英國 AI Security Institute 兩個網路安全測試場域的模型，在 ExploitBench 和 ExploitGym 等學術評測上也達到前所未有的精準度。

跨夥伴系統識別超過 10,000 個高或嚴重等級漏洞
在 1,000+ 個開源專案中找到 6,202 個嚴重/高危漏洞
人工評估的真陽性率達 90.6%（1,752 個中有 1,587 個確認）
其中 62.4% 確認為高或嚴重等級
具體案例：Firefox 271 個漏洞、Cloudflare 2,000 個 bug
已修補 75 個高/嚴重 bug，65 個發布公開 advisory

瓶頸從發現轉移到修補

Glasswing 揭露的核心問題是：漏洞發現速度遠超過修補能力。開源維護者承受巨大壓力，平均每個漏洞需要兩週開發修補，而 AI 生成的 bug report 正在使揭露生態系超載。Anthropic 為此釋出 Claude Security beta（含修補建議的程式碼掃描），並建立 Cyber Verification Program，讓安全研究人員可申請例外存取更強大的安全能力。

計畫也坦承困境：「同等能力的模型即將來自多家公司」，這使得在防禦準備到位之前的窗口期特別關鍵。Anthropic 表示 Mythos 等級的模型在開發出更強防護措施之前不會公開釋出。

原始來源：Anthropic Newsroom、Cloudflare Blog

「溫水煮青蛙」基準：測試 AI Agent 在多輪對話中如何抵抗漸進式操控

arXiv:2605.22643 · 2026-05-22

Boiling the Frog 是一個評估 AI agent 安全性的多輪基準測試，模擬真實職場環境中的工具使用場景。其核心假設是：當惡意請求被包裝在一系列正常請求之後，模型較容易被操控執行不應許可的操作——如同溫水中的青蛙無法察覺漸進升溫。

測試設計

與多數安全評測針對生成文字的不同，Boiling the Frog 直接測量模型是否在持久化工作空間環境中實際執行不安全動作。測試情境依風險分三層，並對齊 EU AI Act 的高風險分類框架，最高層為「失控場景」——模型必須主動阻止或升報的情況。

攻擊向量分為兩類：直接的高風險請求（對照組），以及先以低風險請求建立信任再逐步升級的漸進攻擊。攻擊鏈由多個對話輪次組成，各輪次之間的風險累積是核心評測維度。

九個模型的評測結果

模型	攻擊成功率
Claude Haiku	20.5%（最低）
整體平均	44.4%
Seed 2.0 Lite	>80%
Gemini 3.1 Flash Lite	92.9%（最高）

失控場景攻擊鏈的平均成功率更高達 93.3%，顯示多輪環境下的安全挑戰超越單輪評測的預期嚴重程度。

影響範圍

結果顯示當前主流 agent 系統在持久化、有狀態的工作環境中面臨重大安全挑戰。與靜態安全評測相比，多輪漸進攻擊所呈現的威脅模型更接近真實企業部署情境，對以 agent 形式上線的 LLM 系統具有直接參考意義。

原始來源：arXiv:2605.22643

Post-Training 的關鍵不是 token 而是狀態：以狀態分佈統一 SFT、RL 與 On-Policy 蒸餾

arXiv:2605.22731 · 2026-05-22

這篇論文提出一個統一的理論框架，主張語言模型 post-training 的效果取決於監督信號施加在哪些狀態上，而非損失函數的形式。這個「狀態分佈視角」重新解釋了 SFT、RL 和 on-policy 蒸餾之間的根本差異。

狀態分佈的定義

在自回歸語言模型中，「狀態」定義為提示詞加上任意長度的生成前綴。三種主流 post-training 方法的差異因此可以描述為：

SFT：在固定資料集定義的狀態上訓練，狀態分佈靜態且由資料決定
RL：在當前模型動態生成的狀態上訓練，狀態分佈隨模型演化
On-Policy Distillation (OPD)：用教師模型指導，但在學生模型自身的狀態上執行，兼具兩者特性

Qwen3-0.6B 實驗結果

以 Qwen3-0.6B-Base 在 GSM8K 上進行的受控實驗揭示三個關鍵發現：

SFT 呈現劑量依賴行為：輕度微調提升目標任務同時保留其他能力，積極 SFT 則導致在 TruthfulQA、MMLU 上明顯遺忘
OPD超越退化的 SFT 教師：即使以能力已下滑的 SFT 模型作為監督來源，on-policy 蒸餾仍在所有評測任務上超越該教師
輕量 RL保留知識同時改善目標任務，展現最佳的能力保留/提升比

影響範圍

這個框架對工程實踐的啟示是：訓練狀態的來源與局部性可能與監督信號的形式同等重要。在選擇 post-training 策略時，不能僅以損失函數形式分析，還需考量模型在訓練期間所遍歷的狀態空間。

原始來源：arXiv:2605.22731

End of article

Anthropic Project Glasswing 首次進度更新：AI 輔助漏洞挖掘與修補的大規模試驗

第一個月的量化成果

瓶頸從發現轉移到修補

「溫水煮青蛙」基準：測試 AI Agent 在多輪對話中如何抵抗漸進式操控

測試設計

九個模型的評測結果

影響範圍

Post-Training 的關鍵不是 token 而是狀態：以狀態分佈統一 SFT、RL 與 On-Policy 蒸餾

狀態分佈的定義

Qwen3-0.6B 實驗結果

影響範圍

More on this topic