AI 前沿 2026 年 5 月 15 日

2026-05-15 — Anthropic Gates Foundation $2億、DeepMind AI Pointer、非同步連續批次推理

primary=https://www.anthropic.com/news/gates-foundation-partnership primary=https://deepmind.google/blog/ai-pointer/ primary=https://huggingface.co/blog/continuous_async

Anthropic 與 Gates Foundation 簽署 $2 億合作:AI 用於全球衛生、教育與農業

anthropic.com · 2026-05-14

Anthropic 於 2026-05-14 宣布與 Bill & Melinda Gates Foundation 建立四年期合作,總承諾達 2 億美元,以現金授權、Claude 使用額度與技術支援三種形式組合,聚焦全球衛生、生命科學、教育、農業生產力四個領域的非營利性 AI 應用。

技術規格與基礎設施

技術合作的核心是 Anthropic 為合作夥伴機構開發跨平台連接器,讓 Claude 能存取各組織的內部資料系統,而無需每個機構獨立整合 API。在全球衛生領域,Anthropic 將建立公開醫療 AI 評估基準——針對低中收入國家(LMIC)的健康照護任務,評估 AI 模型在臨床決策支援、病歷摘要與疾病預測上的可靠性,並開放結果供學術界比對。

生命科學項目包括與 Gates Foundation 的疾病預測模型改進,合作對象涵蓋針對脊髓灰質炎、HPV 疫苗、子癲前症研究的機構。農業生產力方面的主要應用是透過 Claude 協助小農取得在地語言的農業知識、天氣預報解讀,以及市場定價資訊,而不需要學術訓練。

教育基礎設施

教育應用計畫在美國、撒哈拉以南非洲、印度三個地區部署,具體項目包括 K-12 個人化輔導(針對基礎識字與數學)、大學入學申請輔導(面向第一代大學生),以及勞動力技能培訓。Anthropic 承諾開放相應的資料集與評估框架,作為公共財供其他研究者驗證 AI 在教育場景的實際效果。

架構意義

此合作標誌著 Anthropic 從單純的 API 供應商角色,向領域特定 AI 基礎設施建設者的方向延伸。$2 億的規模使其成為 AI 公司在全球發展領域迄今最大的單一社會承諾,也為其他基金會在評估 AI 合作夥伴時提供了一個帶有具體技術義務(基準、連接器、資料集)而非純粹財務捐助的模板。

原始來源:anthropic.com


DeepMind AI Pointer:Gemini 整合進滑鼠指標,跨應用的無縫脈絡 AI 操作

deepmind.google · 2026-05-14

Google DeepMind 發布 AI Pointer 實驗性技術,將 Gemini 的理解能力直接整合進滑鼠指標,讓用戶以指針指向任意螢幕元素(文字段落、程式碼區塊、圖片局部、地圖標記)後發出語音或文字指令,而不需切換至獨立的 AI 介面。「指著就能用」的設計消除了現有 AI 助手最大的摩擦點:描述「哪個東西」的語言開銷

技術機制

AI Pointer 的底層在指標懸停時對視覺脈絡進行實時取樣,將像素層的位置資訊轉換為 Gemini 可理解的語義實體(entity)——食譜照片中的食材、程式碼編輯器中的函數簽章、地圖上的地標。系統設計圍繞四個原則:維持工作流(無須切換應用)、指示即理解(視覺脈絡取代文字描述)、自然縮寫(「修這個」、「移那個」即可)、像素轉實體(視覺元素可互動化)

以食譜影像為例:指向照片中的蔬菜後說「哪裡能買到這個?」,Gemini 識別植物種類並查詢附近商店,整個過程不需用戶輸入「番茄」這個詞。在程式碼場景,指向一個函數後說「解釋這個」,Gemini 直接取得該函數的完整上下文進行解析。

部署現況

技術目前在 Chrome 的 Gemini 功能與 Google 的 Googlebook 筆電上進行整合,並在 Google AI Studio 提供影像編輯與地圖導覽的實驗示範。AI Studio 版本目前開放公測,允許開發者測試「指向圖片某個區域 → 請 Gemini 編輯該區域」的互動模式。正式的跨應用版本尚未有公開時程。

原始來源:deepmind.google


非同步連續批次處理:解耦 CPU/GPU 作業讓 LLM 推理快 22%、GPU 使用率達 99.4%

huggingface.co · 2026-05-14

HuggingFace 工程師發表一篇詳述非同步連續批次處理(Asynchronous Continuous Batching)的技術文章,展示如何透過純硬體協調(無需新 kernel 或模型修改),讓 LLM 推理的 GPU 使用率從 76% 提升至 99.4%,生成速度加快 22%。測試條件為 8B 模型、批次大小 32、輸出 8K tokens。

核心機制

傳統同步批次處理中,CPU 準備批次資料與 GPU 執行前向傳播是交替進行的——GPU 執行時 CPU 閒置,CPU 工作時 GPU 閒置,造成約 24% 的空閒時間。

非同步架構的核心是引入三條獨立 CUDA Streams:H2D(Host-to-Device 資料傳輸)、Compute(前向傳播計算)、D2H(Device-to-Host 結果取回)。三條 Stream 以 CUDA Events 進行同步點標記,GPU 在 Compute Stream 執行第 N 批次時,H2D Stream 已在準備第 N+1 批次。整個協調在 GPU 層強制執行,CPU 不需輪詢等待。

雙緩衝(Dual Buffer)與記憶體池是另一個關鍵元件:兩個交替使用的輸入輸出槽(A 和 B)防止第 N 批次輸出覆蓋第 N+1 批次輸入的資料競爭。共用 CUDA Graph 記憶體池將 VRAM 開銷最小化。Carry-Over Mechanism 則用 mask 操作將第 N 批次產生的新 token 傳入第 N+1 批次的輸入位置,在 CPU 仍在準備時使用佔位零值。

實際效果

指標同步(前)非同步(後)
GPU 使用率76.0%99.4%
總生成時間(8K tokens)300.6s234.5s(快 22%)

此方法對基礎設施工程師的主要吸引力在於零模型修改——不需重新訓練、量化或更換 kernel,只需在推理引擎的排程層實作雙緩衝與 CUDA Stream 協調,即可在任何 Transformers 架構模型上取得顯著提速。

原始來源:huggingface.co


End of article
0
Would love your thoughts, please comment.x
()
x