Anthropic Project Glasswing 首次進度更新:AI 輔助漏洞挖掘與修補的大規模試驗
Anthropic Newsroom · 2026-05-22
Anthropic 於 2026 年 5 月 22 日發布 Project Glasswing 的初步進度報告,這是一個集合約 50 個組織的協作計畫,目標是在 AI 系統具備大規模利用漏洞能力之前,先主動識別並修補關鍵基礎設施軟體中的安全漏洞。參與夥伴包含 Cloudflare、Mozilla、Microsoft、Oracle、Palo Alto Networks 等主要科技與資安公司,以及英國 AI Security Institute 和 Open Source Security Foundation 的 Alpha-Omega 計畫。
第一個月的量化成果
Glasswing 使用的核心技術為 Mythos Preview,這是 Anthropic 的安全專向模型。根據報告,Mythos Preview 是首個能端對端完成英國 AI Security Institute 兩個網路安全測試場域的模型,在 ExploitBench 和 ExploitGym 等學術評測上也達到前所未有的精準度。
- 跨夥伴系統識別超過 10,000 個高或嚴重等級漏洞
- 在 1,000+ 個開源專案中找到 6,202 個嚴重/高危漏洞
- 人工評估的真陽性率達 90.6%(1,752 個中有 1,587 個確認)
- 其中 62.4% 確認為高或嚴重等級
- 具體案例:Firefox 271 個漏洞、Cloudflare 2,000 個 bug
- 已修補 75 個高/嚴重 bug,65 個發布公開 advisory
瓶頸從發現轉移到修補
Glasswing 揭露的核心問題是:漏洞發現速度遠超過修補能力。開源維護者承受巨大壓力,平均每個漏洞需要兩週開發修補,而 AI 生成的 bug report 正在使揭露生態系超載。Anthropic 為此釋出 Claude Security beta(含修補建議的程式碼掃描),並建立 Cyber Verification Program,讓安全研究人員可申請例外存取更強大的安全能力。
計畫也坦承困境:「同等能力的模型即將來自多家公司」,這使得在防禦準備到位之前的窗口期特別關鍵。Anthropic 表示 Mythos 等級的模型在開發出更強防護措施之前不會公開釋出。
「溫水煮青蛙」基準:測試 AI Agent 在多輪對話中如何抵抗漸進式操控
arXiv:2605.22643 · 2026-05-22
Boiling the Frog 是一個評估 AI agent 安全性的多輪基準測試,模擬真實職場環境中的工具使用場景。其核心假設是:當惡意請求被包裝在一系列正常請求之後,模型較容易被操控執行不應許可的操作——如同溫水中的青蛙無法察覺漸進升溫。
測試設計
與多數安全評測針對生成文字的不同,Boiling the Frog 直接測量模型是否在持久化工作空間環境中實際執行不安全動作。測試情境依風險分三層,並對齊 EU AI Act 的高風險分類框架,最高層為「失控場景」——模型必須主動阻止或升報的情況。
攻擊向量分為兩類:直接的高風險請求(對照組),以及先以低風險請求建立信任再逐步升級的漸進攻擊。攻擊鏈由多個對話輪次組成,各輪次之間的風險累積是核心評測維度。
九個模型的評測結果
| 模型 | 攻擊成功率 |
|---|---|
| Claude Haiku | 20.5%(最低) |
| 整體平均 | 44.4% |
| Seed 2.0 Lite | >80% |
| Gemini 3.1 Flash Lite | 92.9%(最高) |
失控場景攻擊鏈的平均成功率更高達 93.3%,顯示多輪環境下的安全挑戰超越單輪評測的預期嚴重程度。
影響範圍
結果顯示當前主流 agent 系統在持久化、有狀態的工作環境中面臨重大安全挑戰。與靜態安全評測相比,多輪漸進攻擊所呈現的威脅模型更接近真實企業部署情境,對以 agent 形式上線的 LLM 系統具有直接參考意義。
原始來源:arXiv:2605.22643
Post-Training 的關鍵不是 token 而是狀態:以狀態分佈統一 SFT、RL 與 On-Policy 蒸餾
arXiv:2605.22731 · 2026-05-22
這篇論文提出一個統一的理論框架,主張語言模型 post-training 的效果取決於監督信號施加在哪些狀態上,而非損失函數的形式。這個「狀態分佈視角」重新解釋了 SFT、RL 和 on-policy 蒸餾之間的根本差異。
狀態分佈的定義
在自回歸語言模型中,「狀態」定義為提示詞加上任意長度的生成前綴。三種主流 post-training 方法的差異因此可以描述為:
- SFT:在固定資料集定義的狀態上訓練,狀態分佈靜態且由資料決定
- RL:在當前模型動態生成的狀態上訓練,狀態分佈隨模型演化
- On-Policy Distillation (OPD):用教師模型指導,但在學生模型自身的狀態上執行,兼具兩者特性
Qwen3-0.6B 實驗結果
以 Qwen3-0.6B-Base 在 GSM8K 上進行的受控實驗揭示三個關鍵發現:
- SFT 呈現劑量依賴行為:輕度微調提升目標任務同時保留其他能力,積極 SFT 則導致在 TruthfulQA、MMLU 上明顯遺忘
- OPD超越退化的 SFT 教師:即使以能力已下滑的 SFT 模型作為監督來源,on-policy 蒸餾仍在所有評測任務上超越該教師
- 輕量 RL保留知識同時改善目標任務,展現最佳的能力保留/提升比
影響範圍
這個框架對工程實踐的啟示是:訓練狀態的來源與局部性可能與監督信號的形式同等重要。在選擇 post-training 策略時,不能僅以損失函數形式分析,還需考量模型在訓練期間所遍歷的狀態空間。
原始來源:arXiv:2605.22731