產業脈動 2026 年 6 月 3 日

2026-06-03 — Cloudflare 內部 AI 堆疊、Microsoft Build 2026、Cloudflare Gen13

primary=https://blog.cloudflare.com/internal-ai-engineering-stack/ primary=https://news.microsoft.com/build-2026-live-blog primary=https://blogs.windows.com/windowsdeveloper/2026/06/02/build-2026-furthering-windows-as-the-trusted-platform-for-development/ primary=https://blog.cloudflare.com/gen13-launch/ primary=https://blog.cloudflare.com/gen13-config/

Cloudflare 揭露內部 AI 工程堆疊:每月 2,410 億 tokens、Workers AI 為核心推論引擎

Cloudflare Blog · 2026-06-03

Cloudflare 在 2026 年 6 月初公開其內部 AI 工程基礎設施的完整技術架構,揭示公司 93% 的研發人員已使用 AI 編碼工具,每月透過 AI Gateway 路由 2,410 億 tokens,活躍使用者達 3,683 人。這套架構建立在公司自身的 Workers 平台之上。

三層架構

整體架構分為 Platform(平台)、Knowledge(知識)、Enforcement(執法) 三層:

  • Platform 層:Cloudflare Access 提供 Zero Trust 認證;AI Gateway 作為所有 LLM 請求的集中控制點,負責路由、速率限制、成本追蹤、快取(semantic caching)以及模型容錯轉移。Workers AI 執行開源模型的本地推論,累計處理 518.3 億 tokens。
  • Knowledge 層:公司內部 Confluence 文件、程式碼庫、Runbook 透過 Vectorize(Cloudflare 的向量資料庫)建立索引,供 RAG 查詢使用。D1(SQLite-based)儲存結構化中繼資料,R2 儲存大型 blob。
  • Enforcement 層:AI Gateway 的 Guardrails 功能執行內容政策,Durable Objects 儲存每個對話的持久狀態,讓 Workflow 可跨多個 Worker 呼叫維持上下文。

iMARS 與推廣路徑

推動此專案的是一支名為 iMARS(Internal MCP Agent/Server Rollout Squad)的精英團隊,負責建立範本與最佳實踐,再由 Dev Productivity 團隊接手長期維運。Workers AI 在 2026 年 3 月上線了 Kimi K2.5,一個有 256k context window、支援工具呼叫與結構化輸出的開源前沿模型。AI Gateway 目前每月路由 2,018 萬次 AI 請求,超過 295 個內部團隊使用。

技術選型邏輯

Cloudflare 選擇在自身平台上建立內部工具,除了省去外部供應商費用外,也是對自家產品的真實負荷測試(dogfood)——內部遭遇的效能與 API 限制,直接轉化為產品改進優先事項。AI Gateway 的 semantic caching 功能即是在內部大量重複查詢的壓力下提前完善的。

影響範圍

此披露為其他企業建立內部 AI 工具基礎設施提供了具體參考架構。平台、知識、執法三層的分離讓各層可獨立迭代:換模型不影響知識索引,收緊內容政策不需動 RAG pipeline。

原始來源:Cloudflare Blog: Internal AI Engineering Stack


Microsoft Build 2026:Microsoft IQ 正式上線、GitHub Copilot 桌面 App、Fabric on NVIDIA GPU

Microsoft Build 2026 · 2026-06-02~03,舊金山

Microsoft Build 2026 於 6 月 2 至 3 日在舊金山舉行,Satya Nadella 主題演講圍繞「Agent 時代的開發者平台」。三項最具技術深度的發表如下。

Microsoft IQ:跨產品的上下文層

Microsoft IQ 以 GA 狀態整合至 GitHub Copilot、Microsoft Foundry 及 Copilot Studios,作為連接三類知識來源的統一上下文層:

  • Work IQ(來自 Microsoft 365 Signals):會議記錄、郵件脈絡、Teams 討論,提供工作場景的即時業務知識。
  • Fabric IQ(來自 Microsoft Fabric):企業結構化資料,讓 Agent 可直接查詢業務指標。
  • Web IQ:即時 Web 錨定,為 Agent 提供最新外部知識。

Frontier Tuning(私人預覽)讓 Agent 在合規邊界內學習組織特有操作方式,不需將私有資料送至公有雲訓練端點。

GitHub Copilot 桌面 App

GitHub Copilot App 以原生桌面應用程式(macOS 先行,Windows 跟進)形式發布,帶來三個超越 IDE 外掛的能力:跨儲存庫上下文、持久記憶(不依賴當前開啟的編輯器)以及 Agentic 工作流程的視覺化監控面板。此應用目前以預覽狀態開放。

Fabric Data Warehouse on NVIDIA

Microsoft Fabric Data Warehouse 現在可在 NVIDIA 加速計算上執行符合條件的查詢,不需要基礎設施設定。加速執行在 Fabric 執行引擎內部管理,對 SQL 查詢透明,使用者端無需修改查詢語法。向量搜尋和大型 JOIN 是最主要的加速目標。

影響範圍

Microsoft IQ 的三層知識架構試圖讓 Copilot 真正「了解」組織上下文,而非只依靠 prompt 注入。對開發者而言,Copilot 桌面 App 代表 IDE 外掛形態的下一步演化;Fabric GPU 加速則對 Power BI Premium 以上層級的企業分析工作負載有直接影響。

原始來源:Microsoft Build 2026 Live BlogWindows Developer Blog


Cloudflare Gen13 伺服器:AMD EPYC Turin + Rust FL2 達成 2× 吞吐量、50% 耗電效率提升

Cloudflare Blog · 2026-03-23

Cloudflare 在 2026 年 3 月發布第 13 代伺服器硬體,以 AMD EPYC 5th Gen(Turin)處理器為核心,並同步宣布以 Rust 重寫的請求處理層 FL2 正式取代原有 NGINX 基礎堆疊。兩者結合產生的效能提升遠超單一升級。

硬體規格

組件規格
處理器AMD EPYC 9965(192 核心,Turin FL2)
記憶體768 GB DDR5-6400
儲存24 TB PCIe 5.0 NVMe
網路雙埠 100 GbE NIC

Gen13 最顯著的設計取捨是以核心數換快取容量:相比前代 Genoa-X(大 L3 快取設計),Turin 版本犧牲了部分快取,換取更高核心密度。這一選擇依賴 FL2 更高效的記憶體局部性,才能在快取較小的條件下維持效能。

FL2:Rust 重寫的請求處理層

FL2 是 Cloudflare 以 Rust 重寫核心請求處理邏輯的成果,取代了長期以來基於 NGINX 的 C 程式碼路徑。效能改進包含:

  • 更細粒度的鎖與無鎖資料結構,減少 NUMA 跨節點競爭。
  • Rust 的所有權模型消除了連線池常見的 use-after-free 問題,同時減少防禦性複製。
  • 非同步 I/O 路徑針對 io_uring 優化,進一步降低系統呼叫開銷。

效能數據

  • 2× 吞吐量(vs Gen12 同配置)
  • 50% 更好的效能/瓦特
  • 60% 更高的機架吞吐量(相比 Gen12 Genoa-X)

Cloudflare 表示,若沒有 FL2,Gen13 在快取較小的 Turin 硬體上可能不會達到預期效益——軟體與硬體的協同設計是此次升級的核心邏輯。

原始來源:Cloudflare Gen13 LaunchInside Gen 13


End of article
0
Would love your thoughts, please comment.x
()
x