AI 前沿 2026 年 5 月 24 日

2026-05-24 — Anthropic Glasswing 首月發現逾萬漏洞、Agent 多輪安全基準 44% 攻擊成功率

primary=https://www.anthropic.com/research/glasswing-initial-update primary=https://arxiv.org/abs/2605.22643 primary=https://arxiv.org/abs/2605.22731

Anthropic Project Glasswing 首次進度更新:AI 輔助漏洞挖掘與修補的大規模試驗

Anthropic Newsroom · 2026-05-22

Anthropic 於 2026 年 5 月 22 日發布 Project Glasswing 的初步進度報告,這是一個集合約 50 個組織的協作計畫,目標是在 AI 系統具備大規模利用漏洞能力之前,先主動識別並修補關鍵基礎設施軟體中的安全漏洞。參與夥伴包含 Cloudflare、Mozilla、Microsoft、Oracle、Palo Alto Networks 等主要科技與資安公司,以及英國 AI Security Institute 和 Open Source Security Foundation 的 Alpha-Omega 計畫。

第一個月的量化成果

Glasswing 使用的核心技術為 Mythos Preview,這是 Anthropic 的安全專向模型。根據報告,Mythos Preview 是首個能端對端完成英國 AI Security Institute 兩個網路安全測試場域的模型,在 ExploitBench 和 ExploitGym 等學術評測上也達到前所未有的精準度。

  • 跨夥伴系統識別超過 10,000 個高或嚴重等級漏洞
  • 在 1,000+ 個開源專案中找到 6,202 個嚴重/高危漏洞
  • 人工評估的真陽性率達 90.6%(1,752 個中有 1,587 個確認)
  • 其中 62.4% 確認為高或嚴重等級
  • 具體案例:Firefox 271 個漏洞、Cloudflare 2,000 個 bug
  • 已修補 75 個高/嚴重 bug,65 個發布公開 advisory

瓶頸從發現轉移到修補

Glasswing 揭露的核心問題是:漏洞發現速度遠超過修補能力。開源維護者承受巨大壓力,平均每個漏洞需要兩週開發修補,而 AI 生成的 bug report 正在使揭露生態系超載。Anthropic 為此釋出 Claude Security beta(含修補建議的程式碼掃描),並建立 Cyber Verification Program,讓安全研究人員可申請例外存取更強大的安全能力。

計畫也坦承困境:「同等能力的模型即將來自多家公司」,這使得在防禦準備到位之前的窗口期特別關鍵。Anthropic 表示 Mythos 等級的模型在開發出更強防護措施之前不會公開釋出。

原始來源:Anthropic NewsroomCloudflare Blog


「溫水煮青蛙」基準:測試 AI Agent 在多輪對話中如何抵抗漸進式操控

arXiv:2605.22643 · 2026-05-22

Boiling the Frog 是一個評估 AI agent 安全性的多輪基準測試,模擬真實職場環境中的工具使用場景。其核心假設是:當惡意請求被包裝在一系列正常請求之後,模型較容易被操控執行不應許可的操作——如同溫水中的青蛙無法察覺漸進升溫。

測試設計

與多數安全評測針對生成文字的不同,Boiling the Frog 直接測量模型是否在持久化工作空間環境中實際執行不安全動作。測試情境依風險分三層,並對齊 EU AI Act 的高風險分類框架,最高層為「失控場景」——模型必須主動阻止或升報的情況。

攻擊向量分為兩類:直接的高風險請求(對照組),以及先以低風險請求建立信任再逐步升級的漸進攻擊。攻擊鏈由多個對話輪次組成,各輪次之間的風險累積是核心評測維度。

九個模型的評測結果

模型攻擊成功率
Claude Haiku20.5%(最低)
整體平均44.4%
Seed 2.0 Lite>80%
Gemini 3.1 Flash Lite92.9%(最高)

失控場景攻擊鏈的平均成功率更高達 93.3%,顯示多輪環境下的安全挑戰超越單輪評測的預期嚴重程度。

影響範圍

結果顯示當前主流 agent 系統在持久化、有狀態的工作環境中面臨重大安全挑戰。與靜態安全評測相比,多輪漸進攻擊所呈現的威脅模型更接近真實企業部署情境,對以 agent 形式上線的 LLM 系統具有直接參考意義。

原始來源:arXiv:2605.22643


Post-Training 的關鍵不是 token 而是狀態:以狀態分佈統一 SFT、RL 與 On-Policy 蒸餾

arXiv:2605.22731 · 2026-05-22

這篇論文提出一個統一的理論框架,主張語言模型 post-training 的效果取決於監督信號施加在哪些狀態上,而非損失函數的形式。這個「狀態分佈視角」重新解釋了 SFT、RL 和 on-policy 蒸餾之間的根本差異。

狀態分佈的定義

在自回歸語言模型中,「狀態」定義為提示詞加上任意長度的生成前綴。三種主流 post-training 方法的差異因此可以描述為:

  • SFT:在固定資料集定義的狀態上訓練,狀態分佈靜態且由資料決定
  • RL:在當前模型動態生成的狀態上訓練,狀態分佈隨模型演化
  • On-Policy Distillation (OPD):用教師模型指導,但在學生模型自身的狀態上執行,兼具兩者特性

Qwen3-0.6B 實驗結果

以 Qwen3-0.6B-Base 在 GSM8K 上進行的受控實驗揭示三個關鍵發現:

  • SFT 呈現劑量依賴行為:輕度微調提升目標任務同時保留其他能力,積極 SFT 則導致在 TruthfulQA、MMLU 上明顯遺忘
  • OPD超越退化的 SFT 教師:即使以能力已下滑的 SFT 模型作為監督來源,on-policy 蒸餾仍在所有評測任務上超越該教師
  • 輕量 RL保留知識同時改善目標任務,展現最佳的能力保留/提升比

影響範圍

這個框架對工程實踐的啟示是:訓練狀態的來源與局部性可能與監督信號的形式同等重要。在選擇 post-training 策略時,不能僅以損失函數形式分析,還需考量模型在訓練期間所遍歷的狀態空間。

原始來源:arXiv:2605.22731


End of article
0
Would love your thoughts, please comment.x
()
x