2026-04-30 — Gemma 4 開放模型、評測成本危機、Granite 4.1 訓練管線、Mistral Medium 3.5、Colossus PyTorch 整合

Gemma 4：四種規格的開放權重多模態模型，最大版本以 1/20 參數量超越大型專有模型

Google DeepMind · 2026-04-02

Google DeepMind 於 2026 年 4 月 2 日發布 Gemma 4 系列，包含四個變體，授權為 Apache 2.0，可商業使用。

模型規格

E2B（Effective 2B）：邊緣裝置模型，約 2B 活躍參數，支援 128K context，含原生音訊輸入
E4B（Effective 4B）：邊緣裝置模型，約 4B 活躍參數，支援 128K context，含原生音訊輸入
26B MoE（Mixture of Experts）：推理時僅啟動 3.8B 參數，256K context
31B Dense：全參數密集模型，最大化品質與微調彈性，256K context

架構特性

全系列模型支援多模態輸入（圖片、影片、可變解析度）；E2B 與 E4B 額外支援音訊輸入。訓練資料覆蓋 140+ 語言。架構面引入了進階推理能力（多步驟規劃、改良邏輯）以及原生 agentic 工作流程支援（函式呼叫、結構化 JSON 輸出、系統指令）。

效能

31B Dense 在 Arena AI 開放原始碼排行榜排名第 3，26B MoE 排名第 6。Google 官方宣稱「Gemma 4 在參數量僅 1/20 的情況下超越較大的模型」。

可用性

透過 Google AI Studio、Hugging Face、Kaggle、Ollama 可存取，支援 vLLM、llama.cpp、NVIDIA NIM 整合。

原始來源：Google DeepMind — Gemma 4

AI 評測成本超越訓練成本：評估成為新的算力瓶頸

EvalEval Coalition (Hugging Face) · 2026-04-29

EvalEval Coalition 的研究者 Avijit Ghosh、Yifan Mai、Georgia Channing 與 Leshem Choshen 於 2026 年 4 月 29 日發表分析，記錄 AI 評測成本已跨越一個結構性門檻。

靜態 LLM 基準的壓縮成果

對於靜態 LLM 基準，現有技術已能實現 100–200× 壓縮同時保留排名順序：tinyBenchmarks 將 MMLU 從 14,000 題壓縮至 100 題（2% 誤差），Flash-HELM 以粗到細程序實現近似相同排名，Anchor Points 僅需 1–30 個範例即可對 87 個模型/提示對進行排序。

Agent 基準的成本現實

基準	每次評測成本
HAL（9 模型 × 9 基準）	$40,000
GAIA	$7.80–$2,829
SWE-bench Verified Mini	$4–$1,600
PaperBench（完整）	~$9,500
MLE-Bench（單 seed）	~$5,500

Agent 基準僅能達到 2–3.5× 壓縮，遠低於靜態基準；訓練在迴圈中的基準（The Well、MLE-Bench）幾乎無法壓縮。

可靠性乘數

單次執行的統計效力不足。k=8 重複執行使 HAL 成本從 $40K 升至 $320K。τ-bench 效能從單次 60% 跌至 8 次一致性要求下的 25%。

評測能力集中問題

只有前沿實驗室能負擔可信的高成本評測，外部驗證實質上退化為儀式性存在。研究者發現 scaffold 選擇在同一任務上造成 33× 成本差異，更高推理算力在多數執行中實際降低準確率。EvalEval Coalition 推動「Every Eval Ever」專案，以統一 metadata schema 共享評測資料，使後續研究者能重用既有結果。

原始來源：Hugging Face Blog — AI evals are becoming the new compute bottleneck

IBM Granite 4.1：五階段 15T Token 訓練管線與四段強化學習

IBM Granite Team (Hugging Face) · 2026-04-29

IBM 於 2026 年 4 月 29 日發布 Granite 4.1 系列（3B/8B/30B Dense），授權 Apache 2.0。

模型架構

Decoder-only dense transformer，採用 Grouped Query Attention（GQA）、RoPE、SwiGLU 激活、RMSNorm、共享輸入/輸出 embedding。

規格	3B	8B	30B
Embedding size	2560	4096	4096
層數	40	40	64
KV heads	8	8	8

五階段預訓練（共 15T tokens）

通用預訓練（10T tokens）：CommonCrawl ~59%、Code ~20%、Math ~7%
數學/程式預訓練（2T tokens）：Math 提升至 ~35%、Code ~30%
高品質退火（2T tokens）：加入 chain-of-thought 12.5%
高品質退火精煉（0.5T tokens）：CommonCrawl-HQ ~40%
長上下文擴展（LCE）：4K→32K→128K→512K 分段擴展

四段強化學習（GRPO + DAPO loss）

多領域 RL（45,504 prompts）：涵蓋 Math、Science、SQL、Temporal Reasoning
RLHF（17,920 prompts）：多語言 scalar reward model，AlpacaEval 提升 ~18.9 分
身分與知識校準 RL（1,728 prompts）
數學 RL（13,504 prompts）：GSM8K 提升 ~3.8 分、DeepMind-Math +23.48

關鍵結果

8B instruct 模型在多項基準上匹敵或超越先前的 Granite 4.0-H-Small（32B-A9B MoE），同時使用更少參數和更簡單的 dense 架構。訓練硬體為 CoreWeave 的 NVIDIA GB200 NVL72 叢集（72-GPU NVLink 域，NDR 400 Gb/s InfiniBand）。

原始來源：Hugging Face — Granite 4.1 LLMs: How They're Built

Mistral Medium 3.5：128B Dense 模型、256K Context、SWE-bench 77.6%

Mistral AI · 2026-04-29

Mistral AI 發布 Mistral Medium 3.5 並同步推出 Vibe Remote Agents 功能，授權採用修改版 MIT（開放權重）。

模型規格

參數量：128B Dense（非 MoE）
Context window：256K tokens
視覺編碼器：自訂設計，支援可變圖片尺寸與長寬比
推理：可調整每次請求的推理力度（configurable reasoning effort）
部署：可在最少 4 顆 GPU 上自托管
API 定價：$1.5/M input tokens、$7.5/M output tokens

基準效能

SWE-bench Verified：77.6%
τ³-Telecom（agentic 能力）：91.4

Vibe Remote Agents

配合 Medium 3.5 發布的 Vibe Remote Agents 讓開發者能夠在雲端執行 agent 工作流程。Vibe 環境擴展了支援的開源模型清單，包含 Kimi、MiniMax 與 Qwen，以及自動選擇最佳開源模型的「auto (open)」選項。

原始來源：Mistral AI — Remote agents in Vibe. Powered by Mistral Medium 3.5.

Google Colossus Rapid Storage 整合 PyTorch：15 TiB/s 吞吐量、訓練提速 23%

Google Developers Blog · 2026-04-29

Google 於 2026 年 4 月 29 日宣布透過 gcsfs（fsspec 介面）將 Colossus 分散式儲存系統的 Rapid bucket 直接整合進 PyTorch 生態系統。

三層架構

儲存層（Rapid Bucket）：透過持久性雙向 gRPC 串流（bi-directional gRPC）取代傳統 REST API，提供有狀態協定支援，效能可比 YouTube 與 Google Search 所使用的 Colossus 基礎設施
介面層（fsspec/gcsfs）：業界標準 fsspec 抽象讓 PyTorch、Dask、Hugging Face Datasets 等框架無需修改程式碼即可存取 Rapid bucket
應用層（PyTorch）：相容現有資料準備工具、checkpoint 管理系統與推理框架

效能數據

Rapid Storage 最大聚合吞吐量：15+ TiB/s
隨機讀取與附加寫入延遲：<1ms
查詢效能：20M+ QPS
端對端訓練加速：23%（與標準區域 bucket 相比）
微基準：讀取吞吐量提升 4.8×、寫入提升 2.8×（16MB I/O，48 processes）

實作細節

客戶端直接連接至底層 Colossus 檔案，省去網路跳點；儲存與 GPU 在同一 zone 以降低延遲（zonal co-location）；自動偵測機制讓現有程式碼無需設定即可切換至 Rapid。升級路徑：gcsfs 2026.3.0 及更新版本。

原始來源：Google Developers Blog — Speeding Up AI: Bringing Google Colossus to PyTorch

End of article

Gemma 4：四種規格的開放權重多模態模型，最大版本以 1/20 參數量超越大型專有模型

模型規格

架構特性

效能

可用性

AI 評測成本超越訓練成本：評估成為新的算力瓶頸

靜態 LLM 基準的壓縮成果

Agent 基準的成本現實

可靠性乘數

評測能力集中問題

IBM Granite 4.1：五階段 15T Token 訓練管線與四段強化學習

模型架構

五階段預訓練（共 15T tokens）

四段強化學習（GRPO + DAPO loss）

關鍵結果

Mistral Medium 3.5：128B Dense 模型、256K Context、SWE-bench 77.6%

模型規格

基準效能

Vibe Remote Agents

Google Colossus Rapid Storage 整合 PyTorch：15 TiB/s 吞吐量、訓練提速 23%

三層架構

效能數據

實作細節

More on this topic