產業脈動 2026 年 5 月 29 日

2026-05-29 — Cloudflare Town Lake + Skipper AI、Anthropic Series H $65B、Meta 資料攝入遷移

primary=https://blog.cloudflare.com/our-unified-data-platform/ primary=https://www.anthropic.com/news/series-h primary=https://engineering.fb.com/2026/05/12/data-infrastructure/migrating-data-ingestion-systems-at-meta-scale/

Cloudflare Town Lake:統一資料平台與 Skipper AI 代理的工程解剖

Cloudflare Blog · 2026-05-28

Cloudflare 工程部落格詳細揭露 Town Lake——其統一分析平台的完整架構——以及建構於其上的內部 AI 代理 Skipper。Town Lake 以 lakehouse 模式整合多源資料,每秒處理超過十億個事件;Skipper 讓員工以自然語言查詢公司資料,並透過 MCP server 暴露能力。

Town Lake 架構

查詢層採用 Apache Trino,單一 SQL 查詢可跨 Postgres 表、ClickHouse 表與 R2 上的 Iceberg 表做 join,無需物化中間結果。儲存與元資料層包含:

  • R2 Data Catalog:受管理的 Apache Iceberg 服務,支援 schema 演進與時光旅行
  • DataHub:元資料目錄,追蹤表、欄位、擁有者、血緣與詞彙表
  • Lifeguard:存取控制服務,規則存於 D1,動態拉取使用者群組成員資格
  • Skimmer:PII 偵測掃描器,以 Workers AI 兩階段運作——快速逐欄分類 + 有完整上下文的代理驗證

資料架構預設封閉(default-closed):表在審查通過前不可查詢;Schema 發現與資料存取分離,使用者可見表的存在,但未審查欄位在查詢與描述中均隱藏。

Skipper AI 代理實作

Skipper 建構於 Workers、Workers AI、Durable Objects、D1 與 R2 之上,同時作為聊天介面與 MCP(Model Context Protocol)server。為防止幻覺,代理使用五層上下文:Schema 元資料(含主外鍵)、人工標注語意說明、產生表的實際 SQL(.meta.json)、手工撰寫的資料模型指南,以及執行時期的即時 Trino 查詢。

Code Mode:MCP server 採用 Code Mode 而非循序工具呼叫——模型撰寫 JavaScript 片段以一次 round-trip 執行完整工具集,透過 WorkerLoader 沙箱化,降低延遲與 token 消耗並留下可審計的程式碼記錄。

規模與效果

計費相關查詢佔 Town Lake 總工作量的 53%,來自 324 名員工的 91,760 次查詢。原本 200–300 行的複雜舊版查詢現在縮減至 5 行;「前 100 大客戶營收」此類查詢約 3 秒完成。

原始來源:Cloudflare Blog — How we built Cloudflare's data platform and an AI agent on top of it


Anthropic Series H 融資 $65B,估值逼近 $1 兆

Anthropic News · 2026-05-28

Anthropic 宣布完成 Series H 融資,金額 650 億美元,投後估值 9,650 億美元,逼近 1 兆美元門檻。這是 AI 領域迄今最大規模的單輪私募融資,Anthropic 也超越 OpenAI 成為估值最高的私人 AI 實驗室。

背景與意義

此輪融資緊接著 2026 年 5 月同日 Claude Opus 4.8 的發布,以及數週內 KPMG、PwC 等大型企業合作夥伴的宣布。資金用途包括運算基礎設施擴張、模型研究投資,以及米蘭、首爾等新辦公室的國際展開。

對競爭格局的意義在於:Anthropic 的融資速度(Series G 至 H 不到 8 個月)反映了企業客戶對 Claude 模型的高度需求,以及投資市場對 AI safety-focused 實驗室商業模式的持續信心。同日 HN 上,Claude Opus 4.8 的發布文章獲得超過 1,100 點,是當日排行第一的技術故事。

原始來源:Anthropic — Series H funding announcement


Meta 資料攝入系統遷移:數萬條 pipeline、PB 級 MySQL CDC 重構

Meta Engineering Blog · 2026-05-12

Meta 完成將數萬個資料攝入工作從客戶自管 pipeline 遷移至集中式自助資料倉儲服務的工程專案,每日處理數 PB 的社交圖譜資料(來自全球最大規模的 MySQL 部署之一)。

原有問題

舊系統在日益嚴格的資料落地時間(landing time)要求下開始出現不穩定,根本原因是分散式擁有者模型使大規模管理困難——每個工程團隊各自負責自己的 pipeline,導致質量標準與可靠性不一致。

遷移方法

遷移採用三階段生命週期:Shadow(新舊平行運行驗證)→ Reverse Shadow(切換主導後保留舊版備援)→ Cleanup(移除舊版)。支撐機制包含:

  • 自動化遷移工具,附持續監控
  • 行數與 checksum 對比的資料品質分析工具
  • 快速回滾能力防止錯誤資料擴散
  • 批次遷移計畫與容量限制協調

結果:100% 工作負載完成遷移,改善落地延遲,並在舊系統比較下減少運算與儲存使用量。快照重用策略消除了不必要的完整 dump,進一步降低 I/O 負載。

原始來源:Meta Engineering — Migrating Data Ingestion Systems at Meta Scale


End of article
0
Would love your thoughts, please comment.x
()
x