2026-05-28 — Gemini 3.5 Flash、MiniMax-M2 229.9B MoE、Gemini Embedding 2 四模態

Gemini 3.5 Flash 正式發布：比前沿模型快 4 倍、76.2% Terminal-Bench 2.1，agentic 架構全面強化

Google DeepMind · 2026-05-28

Google 於 2026 年 5 月 28 日正式發布 Gemini 3.5 Flash，同日在 Gemini 應用程式、Google Search、Gemini API 與 Google Workspace 全面上線。Gemini 3.5 Pro 目前仍在內部測試，預計下個月逐步推出。

基準測試表現

基準	分數	說明
Terminal-Bench 2.1	76.2%	終端機與指令執行任務
GDPval-AA	1656 Elo	通用能力競技場評分
MCP Atlas	83.6%	代理框架任務
CharXiv Reasoning	84.2%	多模態圖表理解

Google 宣稱 3.5 Flash 落在「Artificial Analysis index 右上象限」，在前沿智慧與速度的二維圖上兼顧兩者。輸出速度比同等級競爭模型快 4 倍，定位為需要低延遲的 agentic 工作負載。

Agentic 能力

Gemini 3.5 的核心設計重心是多步驟 agentic 任務：子代理協調（subagent coordination）、長程任務規劃、跨多輪對話的 tool-calling 與上下文保留。程式碼生成方面，3.5 Flash 宣稱可處理大型遺留程式碼庫的重構（100+ 頁文件推理）。UI 生成能力也獲強化，支援互動動畫與複雜 Web 介面直接產出。

與 Gemini Omni 的定位差異

同週發布的 Gemini Omni Flash 專注於多模態影片生成，而 3.5 系列定位為推理與行動能力的旗艦：深度文件分析、agentic 工作流自動化、複雜多步驟任務執行。Google 未在發布文章中公開具體參數量或上下文視窗長度。

原始來源：Google DeepMind Blog — Gemini 3.5

MiniMax-M2：229.9B 參數 MoE 模型，以 Forge RL 框架訓練長程 Agentic 任務

arXiv:2605.26494 · 2026-05-28

MiniMax 發布 M2 系列技術報告（arXiv:2605.26494），旗艦模型採用 Mixture-of-Experts 架構，總參數 229.9B，每次前向傳遞僅激活 9.8B，在保持推論效率的前提下達到前沿級 agentic 性能。

架構設計

M2 的 MoE 設計強調 agentic 部署的端對端優化，而非通用語言建模。稀疏激活（sparse activation）讓模型在長程任務中控制計算成本。訓練資料來源於大規模可驗證的 agentic 軌跡（agentic trajectories），在可執行工作區與 artifact-aligned reward 的環境下收集，確保訓練樣本反映真實的代理部署情境。

Forge：Agent-Native RL 框架

MiniMax 為 M2 開發了專用強化學習框架 Forge，針對長程代理任務的訓練特性設計。Forge 的關鍵技術包含：

Windowed-FIFO 調度：管理長程 rollout 的記憶體效率
Prefix-tree merging：在共享前綴的多個軌跡之間複用計算
White-box 與 Black-box 代理支援：統一訓練介面，適應不同代理設計

自我演化能力

M2 的 M2.7 檢查點展示了初步的自我演化能力：模型能自主除錯自身訓練執行並修改其訓練架構（scaffold），代表早期的自我改進機制。這是報告中最具影響力的宣稱之一，雖未提供完整的可重現實驗細節。M2 系列在 agentic coding、deep search、office task 及推理基準上達到前沿水準，具體數字見論文第 35 頁的 4 張比較表。

原始來源：arXiv:2605.26494 — The MiniMax-M2 Technical Report

Gemini Embedding 2：統一四模態向量空間，MTEB Code 84.0、跨模態 MSCOCO R@1 62.9

arXiv:2605.27295 · 2026-05-28

Google 發布 Gemini Embedding 2 技術報告（arXiv:2605.27295），這是第一個將文字、圖片、音訊、影片四種模態嵌入統一向量表示空間的 native 多模態嵌入模型，允許任意模態組合之間直接計算語意相似度，無需跨模態橋接層。

訓練方法

模型採用大規模對比學習（large-scale contrastive learning）搭配多任務多階段訓練（multi-task multi-stage training）。多階段設計讓模型先在單模態任務上建立強大基礎，再在跨模態對齊階段學習統一表示空間，避免各模態相互干擾。

基準測試結果

基準	指標	分數
MSCOCO（圖文跨模態）	R@1	62.9
Vatex（影片文字）	NDCG@10	68.8
MTEB multilingual	平均	69.9
MTEB Code	平均	84.0

Google 宣稱在各項基準上超越同類專精模型（specialized models）的表現，且具備「從天文學到美食藝術」的強零樣本（zero-shot）遷移能力。

應用場景

統一多模態向量空間直接啟用以下用途：跨模態 RAG（以文字查詢影片片段）、多模態推薦系統（行為 + 視覺 + 描述文字統一評分）、跨語言跨模態語意搜尋。API 存取已整合至 Google AI SDK。

原始來源：arXiv:2605.27295 — Gemini Embedding 2

End of article