Project Glasswing:Cloudflare 以 50+ 內部 Repo 實測 Anthropic Mythos 安全 LLM 的滲透能力
Cloudflare Blog · 2026-05-18
Cloudflare 於 2026 年 5 月 18 日發表 Project Glasswing 技術報告,說明他們在受控環境下以超過 50 個內部程式碼倉庫測試 Anthropic Mythos Preview——一個針對安全研究最佳化的語言模型。測試範圍涵蓋 Cloudflare 的執行期、邊緣資料路徑、協議堆疊、控制平面與開源依賴項。
模型能力
漏洞鏈構建(exploit chain construction)是 Mythos 展現的最顯著能力:將多個漏洞原語組合成可運作的利用鏈,推理過程接近資深安全研究員的分析深度。更關鍵的是,Mythos 能生成概念驗證(PoC)——編寫、編譯、執行測試程式碼,並在失敗時迭代調整假設。這與早期模型只能識別漏洞但無法驗證可利用性有本質差異。
發現的限制
不一致的拒絕行為是測試中最令人困擾的問題。Cloudflare 觀察到:「The same task, framed differently or presented in a different context, could produce completely different outcomes」——安全邊界取決於措辭,而非任務本質,這使得模型難以在廣泛部署場景下可靠使用。
雜訊問題持續存在:模型缺乏信心校準,會回報推測性發現,且在 C/C++ 這類記憶體不安全語言的分析上表現較弱。大量誤報需要人工過濾,影響了自動化安全掃描的實際可用性。
採用的方法
Cloudflare 開發了一個專用多階段 harness,而非使用通用程式碼代理:
- 偵查(recon):平行窄範圍任務取代全面單一代理
- 並行漏洞搜尋:多個代理同時掃描不同攻擊面
- 獨立驗證:分離的驗證層確認初步發現
- 跨倉庫追蹤:識別橫跨多個服務的漏洞鏈
- 去重與結構化報告
影響範圍
報告的結論具有工程實務意義:人工修補速度跟不上揭露時間軸,在 AI 能夠加速漏洞發現的時代,防禦架構必須著重「讓漏洞無法被利用」而非「快速發現後修補」。Cloudflare 同時指出,這類測試對自身基礎設施有直接價值——將 AI 安全研究從理論移向對真實生產系統的受控評估。
原始來源:Cloudflare Blog
k6 2.0 發布:MCP Server 暴露測試能力給 AI Agent、Browser Module Playwright 相容擴展
Grafana · 2026-05-19
Grafana 於 2026 年 5 月 19 日發布 k6 2.0,這個版本的核心主題是讓 AI 代理成為測試工作流的一等公民,同時大幅擴展 Browser 模組與擴充套件生態系。
AI 輔助測試架構
k6 x mcp 是最具架構意義的新功能,以 Model Context Protocol(MCP)Server 的形式暴露 k6 的核心能力,讓 Claude、Cursor 等 AI 代理可以驗證腳本、執行測試並迭代改善。搭配的四個子命令構成完整的代理工作流:
k6 x agent:提供代理所需的配置、技能與文件參考k6 x mcp:啟動 MCP Serverk6 x docs:CLI 存取文件與 API 參考k6 x explore:瀏覽擴充套件登錄
Browser 模組與 Assertions API
Browser 模組擴展了 Playwright 相容性,降低從現有 Playwright 測試遷移的成本。新的 Assertions API 引入兩種模式:非重試斷言(immediate evaluation,適合 HTTP 狀態碼、回應 payload)與自動重試斷言(auto-retry,適合需要等待元素出現的 Browser 測試場景)。
擴充套件生態系
k6 x 命名空間現在支援社群自訂子命令,官方與社群擴充套件登錄明確區分。原生 OpenTelemetry 輸出讓 k6 測試結果直接整合進現有的可觀測性管線;k6 Operator 1.0 則支援在 Kubernetes 上執行分散式大規模負載測試。
影響範圍
k6 2.0 的 MCP 整合讓負載測試腳本的生成與迭代可以由 AI 代理主導,從「人工撰寫測試」轉向「代理輔助測試設計」。k6 2.0 向後相容現有工作流,升級不需要修改現有腳本。
原始來源:Grafana Blog