2026-05-19 — Cloudflare Project Glasswing Mythos 滲透測試、k6 2.0 MCP Server

Project Glasswing：Cloudflare 以 50+ 內部 Repo 實測 Anthropic Mythos 安全 LLM 的滲透能力

Cloudflare Blog · 2026-05-18

Cloudflare 於 2026 年 5 月 18 日發表 Project Glasswing 技術報告，說明他們在受控環境下以超過 50 個內部程式碼倉庫測試 Anthropic Mythos Preview——一個針對安全研究最佳化的語言模型。測試範圍涵蓋 Cloudflare 的執行期、邊緣資料路徑、協議堆疊、控制平面與開源依賴項。

模型能力

漏洞鏈構建（exploit chain construction）是 Mythos 展現的最顯著能力：將多個漏洞原語組合成可運作的利用鏈，推理過程接近資深安全研究員的分析深度。更關鍵的是，Mythos 能生成概念驗證（PoC）——編寫、編譯、執行測試程式碼，並在失敗時迭代調整假設。這與早期模型只能識別漏洞但無法驗證可利用性有本質差異。

發現的限制

不一致的拒絕行為是測試中最令人困擾的問題。Cloudflare 觀察到：「The same task, framed differently or presented in a different context, could produce completely different outcomes」——安全邊界取決於措辭，而非任務本質，這使得模型難以在廣泛部署場景下可靠使用。

雜訊問題持續存在：模型缺乏信心校準，會回報推測性發現，且在 C/C++ 這類記憶體不安全語言的分析上表現較弱。大量誤報需要人工過濾，影響了自動化安全掃描的實際可用性。

採用的方法

Cloudflare 開發了一個專用多階段 harness，而非使用通用程式碼代理：

偵查（recon）：平行窄範圍任務取代全面單一代理
並行漏洞搜尋：多個代理同時掃描不同攻擊面
獨立驗證：分離的驗證層確認初步發現
跨倉庫追蹤：識別橫跨多個服務的漏洞鏈
去重與結構化報告

影響範圍

報告的結論具有工程實務意義：人工修補速度跟不上揭露時間軸，在 AI 能夠加速漏洞發現的時代，防禦架構必須著重「讓漏洞無法被利用」而非「快速發現後修補」。Cloudflare 同時指出，這類測試對自身基礎設施有直接價值——將 AI 安全研究從理論移向對真實生產系統的受控評估。

原始來源：Cloudflare Blog

k6 2.0 發布：MCP Server 暴露測試能力給 AI Agent、Browser Module Playwright 相容擴展

Grafana · 2026-05-19

Grafana 於 2026 年 5 月 19 日發布 k6 2.0，這個版本的核心主題是讓 AI 代理成為測試工作流的一等公民，同時大幅擴展 Browser 模組與擴充套件生態系。

AI 輔助測試架構

k6 x mcp 是最具架構意義的新功能，以 Model Context Protocol（MCP）Server 的形式暴露 k6 的核心能力，讓 Claude、Cursor 等 AI 代理可以驗證腳本、執行測試並迭代改善。搭配的四個子命令構成完整的代理工作流：

k6 x agent：提供代理所需的配置、技能與文件參考
k6 x mcp：啟動 MCP Server
k6 x docs：CLI 存取文件與 API 參考
k6 x explore：瀏覽擴充套件登錄

Browser 模組與 Assertions API

Browser 模組擴展了 Playwright 相容性，降低從現有 Playwright 測試遷移的成本。新的 Assertions API 引入兩種模式：非重試斷言（immediate evaluation，適合 HTTP 狀態碼、回應 payload）與自動重試斷言（auto-retry，適合需要等待元素出現的 Browser 測試場景）。

擴充套件生態系

k6 x 命名空間現在支援社群自訂子命令，官方與社群擴充套件登錄明確區分。原生 OpenTelemetry 輸出讓 k6 測試結果直接整合進現有的可觀測性管線；k6 Operator 1.0 則支援在 Kubernetes 上執行分散式大規模負載測試。

影響範圍

k6 2.0 的 MCP 整合讓負載測試腳本的生成與迭代可以由 AI 代理主導，從「人工撰寫測試」轉向「代理輔助測試設計」。k6 2.0 向後相容現有工作流，升級不需要修改現有腳本。

原始來源：Grafana Blog

End of article

Project Glasswing：Cloudflare 以 50+ 內部 Repo 實測 Anthropic Mythos 安全 LLM 的滲透能力

模型能力

發現的限制

採用的方法

影響範圍

k6 2.0 發布：MCP Server 暴露測試能力給 AI Agent、Browser Module Playwright 相容擴展

AI 輔助測試架構

Browser 模組與 Assertions API

擴充套件生態系

影響範圍

More on this topic