AI 前沿 2026 年 5 月 28 日

2026-05-28 — Gemini 3.5 Flash、MiniMax-M2 229.9B MoE、Gemini Embedding 2 四模態

primary=https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/ primary=https://arxiv.org/abs/2605.26494 primary=https://arxiv.org/abs/2605.27295

Gemini 3.5 Flash 正式發布:比前沿模型快 4 倍、76.2% Terminal-Bench 2.1,agentic 架構全面強化

Google DeepMind · 2026-05-28

Google 於 2026 年 5 月 28 日正式發布 Gemini 3.5 Flash,同日在 Gemini 應用程式、Google Search、Gemini API 與 Google Workspace 全面上線。Gemini 3.5 Pro 目前仍在內部測試,預計下個月逐步推出。

基準測試表現

基準分數說明
Terminal-Bench 2.176.2%終端機與指令執行任務
GDPval-AA1656 Elo通用能力競技場評分
MCP Atlas83.6%代理框架任務
CharXiv Reasoning84.2%多模態圖表理解

Google 宣稱 3.5 Flash 落在「Artificial Analysis index 右上象限」,在前沿智慧與速度的二維圖上兼顧兩者。輸出速度比同等級競爭模型快 4 倍,定位為需要低延遲的 agentic 工作負載。

Agentic 能力

Gemini 3.5 的核心設計重心是多步驟 agentic 任務:子代理協調(subagent coordination)、長程任務規劃、跨多輪對話的 tool-calling 與上下文保留。程式碼生成方面,3.5 Flash 宣稱可處理大型遺留程式碼庫的重構(100+ 頁文件推理)。UI 生成能力也獲強化,支援互動動畫與複雜 Web 介面直接產出。

與 Gemini Omni 的定位差異

同週發布的 Gemini Omni Flash 專注於多模態影片生成,而 3.5 系列定位為推理與行動能力的旗艦:深度文件分析、agentic 工作流自動化、複雜多步驟任務執行。Google 未在發布文章中公開具體參數量或上下文視窗長度。

原始來源:Google DeepMind Blog — Gemini 3.5


MiniMax-M2:229.9B 參數 MoE 模型,以 Forge RL 框架訓練長程 Agentic 任務

arXiv:2605.26494 · 2026-05-28

MiniMax 發布 M2 系列技術報告(arXiv:2605.26494),旗艦模型採用 Mixture-of-Experts 架構,總參數 229.9B,每次前向傳遞僅激活 9.8B,在保持推論效率的前提下達到前沿級 agentic 性能。

架構設計

M2 的 MoE 設計強調 agentic 部署的端對端優化,而非通用語言建模。稀疏激活(sparse activation)讓模型在長程任務中控制計算成本。訓練資料來源於大規模可驗證的 agentic 軌跡(agentic trajectories),在可執行工作區與 artifact-aligned reward 的環境下收集,確保訓練樣本反映真實的代理部署情境。

Forge:Agent-Native RL 框架

MiniMax 為 M2 開發了專用強化學習框架 Forge,針對長程代理任務的訓練特性設計。Forge 的關鍵技術包含:

  • Windowed-FIFO 調度:管理長程 rollout 的記憶體效率
  • Prefix-tree merging:在共享前綴的多個軌跡之間複用計算
  • White-box 與 Black-box 代理支援:統一訓練介面,適應不同代理設計

自我演化能力

M2 的 M2.7 檢查點展示了初步的自我演化能力:模型能自主除錯自身訓練執行並修改其訓練架構(scaffold),代表早期的自我改進機制。這是報告中最具影響力的宣稱之一,雖未提供完整的可重現實驗細節。M2 系列在 agentic coding、deep search、office task 及推理基準上達到前沿水準,具體數字見論文第 35 頁的 4 張比較表。

原始來源:arXiv:2605.26494 — The MiniMax-M2 Technical Report


Gemini Embedding 2:統一四模態向量空間,MTEB Code 84.0、跨模態 MSCOCO R@1 62.9

arXiv:2605.27295 · 2026-05-28

Google 發布 Gemini Embedding 2 技術報告(arXiv:2605.27295),這是第一個將文字、圖片、音訊、影片四種模態嵌入統一向量表示空間的 native 多模態嵌入模型,允許任意模態組合之間直接計算語意相似度,無需跨模態橋接層。

訓練方法

模型採用大規模對比學習(large-scale contrastive learning)搭配多任務多階段訓練(multi-task multi-stage training)。多階段設計讓模型先在單模態任務上建立強大基礎,再在跨模態對齊階段學習統一表示空間,避免各模態相互干擾。

基準測試結果

基準指標分數
MSCOCO(圖文跨模態)R@162.9
Vatex(影片文字)NDCG@1068.8
MTEB multilingual平均69.9
MTEB Code平均84.0

Google 宣稱在各項基準上超越同類專精模型(specialized models)的表現,且具備「從天文學到美食藝術」的強零樣本(zero-shot)遷移能力。

應用場景

統一多模態向量空間直接啟用以下用途:跨模態 RAG(以文字查詢影片片段)、多模態推薦系統(行為 + 視覺 + 描述文字統一評分)、跨語言跨模態語意搜尋。API 存取已整合至 Google AI SDK。

原始來源:arXiv:2605.27295 — Gemini Embedding 2


End of article
0
Would love your thoughts, please comment.x
()
x