2026-05-15 — Anthropic Gates Foundation $2億、DeepMind AI Pointer、非同步連續批次推理

Anthropic 與 Gates Foundation 簽署 $2 億合作：AI 用於全球衛生、教育與農業

anthropic.com · 2026-05-14

Anthropic 於 2026-05-14 宣布與 Bill & Melinda Gates Foundation 建立四年期合作，總承諾達 2 億美元，以現金授權、Claude 使用額度與技術支援三種形式組合，聚焦全球衛生、生命科學、教育、農業生產力四個領域的非營利性 AI 應用。

技術規格與基礎設施

技術合作的核心是 Anthropic 為合作夥伴機構開發跨平台連接器，讓 Claude 能存取各組織的內部資料系統，而無需每個機構獨立整合 API。在全球衛生領域，Anthropic 將建立公開醫療 AI 評估基準——針對低中收入國家（LMIC）的健康照護任務，評估 AI 模型在臨床決策支援、病歷摘要與疾病預測上的可靠性，並開放結果供學術界比對。

生命科學項目包括與 Gates Foundation 的疾病預測模型改進，合作對象涵蓋針對脊髓灰質炎、HPV 疫苗、子癲前症研究的機構。農業生產力方面的主要應用是透過 Claude 協助小農取得在地語言的農業知識、天氣預報解讀，以及市場定價資訊，而不需要學術訓練。

教育基礎設施

教育應用計畫在美國、撒哈拉以南非洲、印度三個地區部署，具體項目包括 K-12 個人化輔導（針對基礎識字與數學）、大學入學申請輔導（面向第一代大學生），以及勞動力技能培訓。Anthropic 承諾開放相應的資料集與評估框架，作為公共財供其他研究者驗證 AI 在教育場景的實際效果。

架構意義

此合作標誌著 Anthropic 從單純的 API 供應商角色，向領域特定 AI 基礎設施建設者的方向延伸。$2 億的規模使其成為 AI 公司在全球發展領域迄今最大的單一社會承諾，也為其他基金會在評估 AI 合作夥伴時提供了一個帶有具體技術義務（基準、連接器、資料集）而非純粹財務捐助的模板。

原始來源：anthropic.com

DeepMind AI Pointer：Gemini 整合進滑鼠指標，跨應用的無縫脈絡 AI 操作

deepmind.google · 2026-05-14

Google DeepMind 發布 AI Pointer 實驗性技術，將 Gemini 的理解能力直接整合進滑鼠指標，讓用戶以指針指向任意螢幕元素（文字段落、程式碼區塊、圖片局部、地圖標記）後發出語音或文字指令，而不需切換至獨立的 AI 介面。「指著就能用」的設計消除了現有 AI 助手最大的摩擦點：描述「哪個東西」的語言開銷。

技術機制

AI Pointer 的底層在指標懸停時對視覺脈絡進行實時取樣，將像素層的位置資訊轉換為 Gemini 可理解的語義實體（entity）——食譜照片中的食材、程式碼編輯器中的函數簽章、地圖上的地標。系統設計圍繞四個原則：維持工作流（無須切換應用）、指示即理解（視覺脈絡取代文字描述）、自然縮寫（「修這個」、「移那個」即可）、像素轉實體（視覺元素可互動化）。

以食譜影像為例：指向照片中的蔬菜後說「哪裡能買到這個？」，Gemini 識別植物種類並查詢附近商店，整個過程不需用戶輸入「番茄」這個詞。在程式碼場景，指向一個函數後說「解釋這個」，Gemini 直接取得該函數的完整上下文進行解析。

部署現況

技術目前在 Chrome 的 Gemini 功能與 Google 的 Googlebook 筆電上進行整合，並在 Google AI Studio 提供影像編輯與地圖導覽的實驗示範。AI Studio 版本目前開放公測，允許開發者測試「指向圖片某個區域 → 請 Gemini 編輯該區域」的互動模式。正式的跨應用版本尚未有公開時程。

原始來源：deepmind.google

非同步連續批次處理：解耦 CPU/GPU 作業讓 LLM 推理快 22%、GPU 使用率達 99.4%

huggingface.co · 2026-05-14

HuggingFace 工程師發表一篇詳述非同步連續批次處理（Asynchronous Continuous Batching）的技術文章，展示如何透過純硬體協調（無需新 kernel 或模型修改），讓 LLM 推理的 GPU 使用率從 76% 提升至 99.4%，生成速度加快 22%。測試條件為 8B 模型、批次大小 32、輸出 8K tokens。

核心機制

傳統同步批次處理中，CPU 準備批次資料與 GPU 執行前向傳播是交替進行的——GPU 執行時 CPU 閒置，CPU 工作時 GPU 閒置，造成約 24% 的空閒時間。

非同步架構的核心是引入三條獨立 CUDA Streams：H2D（Host-to-Device 資料傳輸）、Compute（前向傳播計算）、D2H（Device-to-Host 結果取回）。三條 Stream 以 CUDA Events 進行同步點標記，GPU 在 Compute Stream 執行第 N 批次時，H2D Stream 已在準備第 N+1 批次。整個協調在 GPU 層強制執行，CPU 不需輪詢等待。

雙緩衝（Dual Buffer）與記憶體池是另一個關鍵元件：兩個交替使用的輸入輸出槽（A 和 B）防止第 N 批次輸出覆蓋第 N+1 批次輸入的資料競爭。共用 CUDA Graph 記憶體池將 VRAM 開銷最小化。Carry-Over Mechanism 則用 mask 操作將第 N 批次產生的新 token 傳入第 N+1 批次的輸入位置，在 CPU 仍在準備時使用佔位零值。

實際效果

指標	同步（前）	非同步（後）
GPU 使用率	76.0%	99.4%
總生成時間（8K tokens）	300.6s	234.5s（快 22%）

此方法對基礎設施工程師的主要吸引力在於零模型修改——不需重新訓練、量化或更換 kernel，只需在推理引擎的排程層實作雙緩衝與 CUDA Stream 協調，即可在任何 Transformers 架構模型上取得顯著提速。

原始來源：huggingface.co

End of article