Gemini 3.5 Flash 正式發布:比前沿模型快 4 倍、76.2% Terminal-Bench 2.1,agentic 架構全面強化
Google DeepMind · 2026-05-28
Google 於 2026 年 5 月 28 日正式發布 Gemini 3.5 Flash,同日在 Gemini 應用程式、Google Search、Gemini API 與 Google Workspace 全面上線。Gemini 3.5 Pro 目前仍在內部測試,預計下個月逐步推出。
基準測試表現
| 基準 | 分數 | 說明 |
|---|---|---|
| Terminal-Bench 2.1 | 76.2% | 終端機與指令執行任務 |
| GDPval-AA | 1656 Elo | 通用能力競技場評分 |
| MCP Atlas | 83.6% | 代理框架任務 |
| CharXiv Reasoning | 84.2% | 多模態圖表理解 |
Google 宣稱 3.5 Flash 落在「Artificial Analysis index 右上象限」,在前沿智慧與速度的二維圖上兼顧兩者。輸出速度比同等級競爭模型快 4 倍,定位為需要低延遲的 agentic 工作負載。
Agentic 能力
Gemini 3.5 的核心設計重心是多步驟 agentic 任務:子代理協調(subagent coordination)、長程任務規劃、跨多輪對話的 tool-calling 與上下文保留。程式碼生成方面,3.5 Flash 宣稱可處理大型遺留程式碼庫的重構(100+ 頁文件推理)。UI 生成能力也獲強化,支援互動動畫與複雜 Web 介面直接產出。
與 Gemini Omni 的定位差異
同週發布的 Gemini Omni Flash 專注於多模態影片生成,而 3.5 系列定位為推理與行動能力的旗艦:深度文件分析、agentic 工作流自動化、複雜多步驟任務執行。Google 未在發布文章中公開具體參數量或上下文視窗長度。
MiniMax-M2:229.9B 參數 MoE 模型,以 Forge RL 框架訓練長程 Agentic 任務
arXiv:2605.26494 · 2026-05-28
MiniMax 發布 M2 系列技術報告(arXiv:2605.26494),旗艦模型採用 Mixture-of-Experts 架構,總參數 229.9B,每次前向傳遞僅激活 9.8B,在保持推論效率的前提下達到前沿級 agentic 性能。
架構設計
M2 的 MoE 設計強調 agentic 部署的端對端優化,而非通用語言建模。稀疏激活(sparse activation)讓模型在長程任務中控制計算成本。訓練資料來源於大規模可驗證的 agentic 軌跡(agentic trajectories),在可執行工作區與 artifact-aligned reward 的環境下收集,確保訓練樣本反映真實的代理部署情境。
Forge:Agent-Native RL 框架
MiniMax 為 M2 開發了專用強化學習框架 Forge,針對長程代理任務的訓練特性設計。Forge 的關鍵技術包含:
- Windowed-FIFO 調度:管理長程 rollout 的記憶體效率
- Prefix-tree merging:在共享前綴的多個軌跡之間複用計算
- White-box 與 Black-box 代理支援:統一訓練介面,適應不同代理設計
自我演化能力
M2 的 M2.7 檢查點展示了初步的自我演化能力:模型能自主除錯自身訓練執行並修改其訓練架構(scaffold),代表早期的自我改進機制。這是報告中最具影響力的宣稱之一,雖未提供完整的可重現實驗細節。M2 系列在 agentic coding、deep search、office task 及推理基準上達到前沿水準,具體數字見論文第 35 頁的 4 張比較表。
Gemini Embedding 2:統一四模態向量空間,MTEB Code 84.0、跨模態 MSCOCO R@1 62.9
arXiv:2605.27295 · 2026-05-28
Google 發布 Gemini Embedding 2 技術報告(arXiv:2605.27295),這是第一個將文字、圖片、音訊、影片四種模態嵌入統一向量表示空間的 native 多模態嵌入模型,允許任意模態組合之間直接計算語意相似度,無需跨模態橋接層。
訓練方法
模型採用大規模對比學習(large-scale contrastive learning)搭配多任務多階段訓練(multi-task multi-stage training)。多階段設計讓模型先在單模態任務上建立強大基礎,再在跨模態對齊階段學習統一表示空間,避免各模態相互干擾。
基準測試結果
| 基準 | 指標 | 分數 |
|---|---|---|
| MSCOCO(圖文跨模態) | R@1 | 62.9 |
| Vatex(影片文字) | NDCG@10 | 68.8 |
| MTEB multilingual | 平均 | 69.9 |
| MTEB Code | 平均 | 84.0 |
Google 宣稱在各項基準上超越同類專精模型(specialized models)的表現,且具備「從天文學到美食藝術」的強零樣本(zero-shot)遷移能力。
應用場景
統一多模態向量空間直接啟用以下用途:跨模態 RAG(以文字查詢影片片段)、多模態推薦系統(行為 + 視覺 + 描述文字統一評分)、跨語言跨模態語意搜尋。API 存取已整合至 Google AI SDK。