Gemma 4:四種規格的開放權重多模態模型,最大版本以 1/20 參數量超越大型專有模型
Google DeepMind · 2026-04-02
Google DeepMind 於 2026 年 4 月 2 日發布 Gemma 4 系列,包含四個變體,授權為 Apache 2.0,可商業使用。
模型規格
- E2B(Effective 2B):邊緣裝置模型,約 2B 活躍參數,支援 128K context,含原生音訊輸入
- E4B(Effective 4B):邊緣裝置模型,約 4B 活躍參數,支援 128K context,含原生音訊輸入
- 26B MoE(Mixture of Experts):推理時僅啟動 3.8B 參數,256K context
- 31B Dense:全參數密集模型,最大化品質與微調彈性,256K context
架構特性
全系列模型支援多模態輸入(圖片、影片、可變解析度);E2B 與 E4B 額外支援音訊輸入。訓練資料覆蓋 140+ 語言。架構面引入了進階推理能力(多步驟規劃、改良邏輯)以及原生 agentic 工作流程支援(函式呼叫、結構化 JSON 輸出、系統指令)。
效能
31B Dense 在 Arena AI 開放原始碼排行榜排名第 3,26B MoE 排名第 6。Google 官方宣稱「Gemma 4 在參數量僅 1/20 的情況下超越較大的模型」。
可用性
透過 Google AI Studio、Hugging Face、Kaggle、Ollama 可存取,支援 vLLM、llama.cpp、NVIDIA NIM 整合。
AI 評測成本超越訓練成本:評估成為新的算力瓶頸
EvalEval Coalition (Hugging Face) · 2026-04-29
EvalEval Coalition 的研究者 Avijit Ghosh、Yifan Mai、Georgia Channing 與 Leshem Choshen 於 2026 年 4 月 29 日發表分析,記錄 AI 評測成本已跨越一個結構性門檻。
靜態 LLM 基準的壓縮成果
對於靜態 LLM 基準,現有技術已能實現 100–200× 壓縮同時保留排名順序:tinyBenchmarks 將 MMLU 從 14,000 題壓縮至 100 題(2% 誤差),Flash-HELM 以粗到細程序實現近似相同排名,Anchor Points 僅需 1–30 個範例即可對 87 個模型/提示對進行排序。
Agent 基準的成本現實
| 基準 | 每次評測成本 |
|---|---|
| HAL(9 模型 × 9 基準) | $40,000 |
| GAIA | $7.80–$2,829 |
| SWE-bench Verified Mini | $4–$1,600 |
| PaperBench(完整) | ~$9,500 |
| MLE-Bench(單 seed) | ~$5,500 |
Agent 基準僅能達到 2–3.5× 壓縮,遠低於靜態基準;訓練在迴圈中的基準(The Well、MLE-Bench)幾乎無法壓縮。
可靠性乘數
單次執行的統計效力不足。k=8 重複執行使 HAL 成本從 $40K 升至 $320K。τ-bench 效能從單次 60% 跌至 8 次一致性要求下的 25%。
評測能力集中問題
只有前沿實驗室能負擔可信的高成本評測,外部驗證實質上退化為儀式性存在。研究者發現 scaffold 選擇在同一任務上造成 33× 成本差異,更高推理算力在多數執行中實際降低準確率。EvalEval Coalition 推動「Every Eval Ever」專案,以統一 metadata schema 共享評測資料,使後續研究者能重用既有結果。
原始來源:Hugging Face Blog — AI evals are becoming the new compute bottleneck
IBM Granite 4.1:五階段 15T Token 訓練管線與四段強化學習
IBM Granite Team (Hugging Face) · 2026-04-29
IBM 於 2026 年 4 月 29 日發布 Granite 4.1 系列(3B/8B/30B Dense),授權 Apache 2.0。
模型架構
Decoder-only dense transformer,採用 Grouped Query Attention(GQA)、RoPE、SwiGLU 激活、RMSNorm、共享輸入/輸出 embedding。
| 規格 | 3B | 8B | 30B |
|---|---|---|---|
| Embedding size | 2560 | 4096 | 4096 |
| 層數 | 40 | 40 | 64 |
| KV heads | 8 | 8 | 8 |
五階段預訓練(共 15T tokens)
- 通用預訓練(10T tokens):CommonCrawl ~59%、Code ~20%、Math ~7%
- 數學/程式預訓練(2T tokens):Math 提升至 ~35%、Code ~30%
- 高品質退火(2T tokens):加入 chain-of-thought 12.5%
- 高品質退火精煉(0.5T tokens):CommonCrawl-HQ ~40%
- 長上下文擴展(LCE):4K→32K→128K→512K 分段擴展
四段強化學習(GRPO + DAPO loss)
- 多領域 RL(45,504 prompts):涵蓋 Math、Science、SQL、Temporal Reasoning
- RLHF(17,920 prompts):多語言 scalar reward model,AlpacaEval 提升 ~18.9 分
- 身分與知識校準 RL(1,728 prompts)
- 數學 RL(13,504 prompts):GSM8K 提升 ~3.8 分、DeepMind-Math +23.48
關鍵結果
8B instruct 模型在多項基準上匹敵或超越先前的 Granite 4.0-H-Small(32B-A9B MoE),同時使用更少參數和更簡單的 dense 架構。訓練硬體為 CoreWeave 的 NVIDIA GB200 NVL72 叢集(72-GPU NVLink 域,NDR 400 Gb/s InfiniBand)。
Mistral Medium 3.5:128B Dense 模型、256K Context、SWE-bench 77.6%
Mistral AI · 2026-04-29
Mistral AI 發布 Mistral Medium 3.5 並同步推出 Vibe Remote Agents 功能,授權採用修改版 MIT(開放權重)。
模型規格
- 參數量:128B Dense(非 MoE)
- Context window:256K tokens
- 視覺編碼器:自訂設計,支援可變圖片尺寸與長寬比
- 推理:可調整每次請求的推理力度(configurable reasoning effort)
- 部署:可在最少 4 顆 GPU 上自托管
- API 定價:$1.5/M input tokens、$7.5/M output tokens
基準效能
- SWE-bench Verified:77.6%
- τ³-Telecom(agentic 能力):91.4
Vibe Remote Agents
配合 Medium 3.5 發布的 Vibe Remote Agents 讓開發者能夠在雲端執行 agent 工作流程。Vibe 環境擴展了支援的開源模型清單,包含 Kimi、MiniMax 與 Qwen,以及自動選擇最佳開源模型的「auto (open)」選項。
原始來源:Mistral AI — Remote agents in Vibe. Powered by Mistral Medium 3.5.
Google Colossus Rapid Storage 整合 PyTorch:15 TiB/s 吞吐量、訓練提速 23%
Google Developers Blog · 2026-04-29
Google 於 2026 年 4 月 29 日宣布透過 gcsfs(fsspec 介面)將 Colossus 分散式儲存系統的 Rapid bucket 直接整合進 PyTorch 生態系統。
三層架構
- 儲存層(Rapid Bucket):透過持久性雙向 gRPC 串流(bi-directional gRPC)取代傳統 REST API,提供有狀態協定支援,效能可比 YouTube 與 Google Search 所使用的 Colossus 基礎設施
- 介面層(fsspec/gcsfs):業界標準 fsspec 抽象讓 PyTorch、Dask、Hugging Face Datasets 等框架無需修改程式碼即可存取 Rapid bucket
- 應用層(PyTorch):相容現有資料準備工具、checkpoint 管理系統與推理框架
效能數據
- Rapid Storage 最大聚合吞吐量:15+ TiB/s
- 隨機讀取與附加寫入延遲:<1ms
- 查詢效能:20M+ QPS
- 端對端訓練加速:23%(與標準區域 bucket 相比)
- 微基準:讀取吞吐量提升 4.8×、寫入提升 2.8×(16MB I/O,48 processes)
實作細節
客戶端直接連接至底層 Colossus 檔案,省去網路跳點;儲存與 GPU 在同一 zone 以降低延遲(zonal co-location);自動偵測機制讓現有程式碼無需設定即可切換至 Rapid。升級路徑:gcsfs 2026.3.0 及更新版本。
原始來源:Google Developers Blog — Speeding Up AI: Bringing Google Colossus to PyTorch