AI 前沿 2026 年 4 月 30 日

2026-04-30 — Gemma 4 開放模型、評測成本危機、Granite 4.1 訓練管線、Mistral Medium 3.5、Colossus PyTorch 整合

Gemma 4:四種規格的開放權重多模態模型,最大版本以 1…

Gemma 4:四種規格的開放權重多模態模型,最大版本以 1/20 參數量超越大型專有模型

Google DeepMind · 2026-04-02

Google DeepMind 於 2026 年 4 月 2 日發布 Gemma 4 系列,包含四個變體,授權為 Apache 2.0,可商業使用。

模型規格

  • E2B(Effective 2B):邊緣裝置模型,約 2B 活躍參數,支援 128K context,含原生音訊輸入
  • E4B(Effective 4B):邊緣裝置模型,約 4B 活躍參數,支援 128K context,含原生音訊輸入
  • 26B MoE(Mixture of Experts):推理時僅啟動 3.8B 參數,256K context
  • 31B Dense:全參數密集模型,最大化品質與微調彈性,256K context

架構特性

全系列模型支援多模態輸入(圖片、影片、可變解析度);E2B 與 E4B 額外支援音訊輸入。訓練資料覆蓋 140+ 語言。架構面引入了進階推理能力(多步驟規劃、改良邏輯)以及原生 agentic 工作流程支援(函式呼叫、結構化 JSON 輸出、系統指令)。

效能

31B Dense 在 Arena AI 開放原始碼排行榜排名第 3,26B MoE 排名第 6。Google 官方宣稱「Gemma 4 在參數量僅 1/20 的情況下超越較大的模型」。

可用性

透過 Google AI Studio、Hugging Face、Kaggle、Ollama 可存取,支援 vLLM、llama.cpp、NVIDIA NIM 整合。

原始來源:Google DeepMind — Gemma 4


AI 評測成本超越訓練成本:評估成為新的算力瓶頸

EvalEval Coalition (Hugging Face) · 2026-04-29

EvalEval Coalition 的研究者 Avijit Ghosh、Yifan Mai、Georgia Channing 與 Leshem Choshen 於 2026 年 4 月 29 日發表分析,記錄 AI 評測成本已跨越一個結構性門檻。

靜態 LLM 基準的壓縮成果

對於靜態 LLM 基準,現有技術已能實現 100–200× 壓縮同時保留排名順序:tinyBenchmarks 將 MMLU 從 14,000 題壓縮至 100 題(2% 誤差),Flash-HELM 以粗到細程序實現近似相同排名,Anchor Points 僅需 1–30 個範例即可對 87 個模型/提示對進行排序。

Agent 基準的成本現實

基準每次評測成本
HAL(9 模型 × 9 基準)$40,000
GAIA$7.80–$2,829
SWE-bench Verified Mini$4–$1,600
PaperBench(完整)~$9,500
MLE-Bench(單 seed)~$5,500

Agent 基準僅能達到 2–3.5× 壓縮,遠低於靜態基準;訓練在迴圈中的基準(The Well、MLE-Bench)幾乎無法壓縮。

可靠性乘數

單次執行的統計效力不足。k=8 重複執行使 HAL 成本從 $40K 升至 $320K。τ-bench 效能從單次 60% 跌至 8 次一致性要求下的 25%。

評測能力集中問題

只有前沿實驗室能負擔可信的高成本評測,外部驗證實質上退化為儀式性存在。研究者發現 scaffold 選擇在同一任務上造成 33× 成本差異,更高推理算力在多數執行中實際降低準確率。EvalEval Coalition 推動「Every Eval Ever」專案,以統一 metadata schema 共享評測資料,使後續研究者能重用既有結果。

原始來源:Hugging Face Blog — AI evals are becoming the new compute bottleneck


IBM Granite 4.1:五階段 15T Token 訓練管線與四段強化學習

IBM Granite Team (Hugging Face) · 2026-04-29

IBM 於 2026 年 4 月 29 日發布 Granite 4.1 系列(3B/8B/30B Dense),授權 Apache 2.0。

模型架構

Decoder-only dense transformer,採用 Grouped Query Attention(GQA)、RoPE、SwiGLU 激活、RMSNorm、共享輸入/輸出 embedding。

規格3B8B30B
Embedding size256040964096
層數404064
KV heads888

五階段預訓練(共 15T tokens)

  1. 通用預訓練(10T tokens):CommonCrawl ~59%、Code ~20%、Math ~7%
  2. 數學/程式預訓練(2T tokens):Math 提升至 ~35%、Code ~30%
  3. 高品質退火(2T tokens):加入 chain-of-thought 12.5%
  4. 高品質退火精煉(0.5T tokens):CommonCrawl-HQ ~40%
  5. 長上下文擴展(LCE):4K→32K→128K→512K 分段擴展

四段強化學習(GRPO + DAPO loss)

  1. 多領域 RL(45,504 prompts):涵蓋 Math、Science、SQL、Temporal Reasoning
  2. RLHF(17,920 prompts):多語言 scalar reward model,AlpacaEval 提升 ~18.9 分
  3. 身分與知識校準 RL(1,728 prompts)
  4. 數學 RL(13,504 prompts):GSM8K 提升 ~3.8 分、DeepMind-Math +23.48

關鍵結果

8B instruct 模型在多項基準上匹敵或超越先前的 Granite 4.0-H-Small(32B-A9B MoE),同時使用更少參數和更簡單的 dense 架構。訓練硬體為 CoreWeave 的 NVIDIA GB200 NVL72 叢集(72-GPU NVLink 域,NDR 400 Gb/s InfiniBand)。

原始來源:Hugging Face — Granite 4.1 LLMs: How They're Built


Mistral Medium 3.5:128B Dense 模型、256K Context、SWE-bench 77.6%

Mistral AI · 2026-04-29

Mistral AI 發布 Mistral Medium 3.5 並同步推出 Vibe Remote Agents 功能,授權採用修改版 MIT(開放權重)。

模型規格

  • 參數量:128B Dense(非 MoE)
  • Context window:256K tokens
  • 視覺編碼器:自訂設計,支援可變圖片尺寸與長寬比
  • 推理:可調整每次請求的推理力度(configurable reasoning effort)
  • 部署:可在最少 4 顆 GPU 上自托管
  • API 定價:$1.5/M input tokens、$7.5/M output tokens

基準效能

  • SWE-bench Verified:77.6%
  • τ³-Telecom(agentic 能力):91.4

Vibe Remote Agents

配合 Medium 3.5 發布的 Vibe Remote Agents 讓開發者能夠在雲端執行 agent 工作流程。Vibe 環境擴展了支援的開源模型清單,包含 Kimi、MiniMax 與 Qwen,以及自動選擇最佳開源模型的「auto (open)」選項。

原始來源:Mistral AI — Remote agents in Vibe. Powered by Mistral Medium 3.5.


Google Colossus Rapid Storage 整合 PyTorch:15 TiB/s 吞吐量、訓練提速 23%

Google Developers Blog · 2026-04-29

Google 於 2026 年 4 月 29 日宣布透過 gcsfs(fsspec 介面)將 Colossus 分散式儲存系統的 Rapid bucket 直接整合進 PyTorch 生態系統。

三層架構

  1. 儲存層(Rapid Bucket):透過持久性雙向 gRPC 串流(bi-directional gRPC)取代傳統 REST API,提供有狀態協定支援,效能可比 YouTube 與 Google Search 所使用的 Colossus 基礎設施
  2. 介面層(fsspec/gcsfs):業界標準 fsspec 抽象讓 PyTorch、Dask、Hugging Face Datasets 等框架無需修改程式碼即可存取 Rapid bucket
  3. 應用層(PyTorch):相容現有資料準備工具、checkpoint 管理系統與推理框架

效能數據

  • Rapid Storage 最大聚合吞吐量:15+ TiB/s
  • 隨機讀取與附加寫入延遲:<1ms
  • 查詢效能:20M+ QPS
  • 端對端訓練加速:23%(與標準區域 bucket 相比)
  • 微基準:讀取吞吐量提升 4.8×、寫入提升 2.8×(16MB I/O,48 processes)

實作細節

客戶端直接連接至底層 Colossus 檔案,省去網路跳點;儲存與 GPU 在同一 zone 以降低延遲(zonal co-location);自動偵測機制讓現有程式碼無需設定即可切換至 Rapid。升級路徑:gcsfs 2026.3.0 及更新版本。

原始來源:Google Developers Blog — Speeding Up AI: Bringing Google Colossus to PyTorch


End of article
0
Would love your thoughts, please comment.x
()
x