2026-05-20 — Gemini 3.5 Flash 高速 Agentic 模型、Gemini Omni 多模態視訊生成

Gemini 3.5 Flash 發布：高速 Agentic 模型的 frontier 效能

Google Blog · 2026-05-20

Google 於 2026 年 5 月 20 日正式發布 Gemini 3.5 Flash，定位為 Agentic 任務與程式設計的新旗艦模型。官方聲稱其輸出 token 速度達到主要 frontier 競爭模型的四倍，同時在多個 Agentic 基準測試中拿下頂尖成績。Gemini 3.5 Pro 預計於下個月跟進發布。

核心效能數字

官方公布的基準測試結果如下：

Terminal-Bench 2.1：76.2%
GDPval-AA（Agentic 評分）：1656 Elo
MCP Atlas：83.6%
CharXiv Reasoning（多模態）：84.2%

在 Artificial Analysis Intelligence Index 中，Gemini 3.5 Flash 落在「高智能 × 高速度」象限，顯示 Google 刻意在效能與回應速度之間取得平衡，而非純粹拼測試分數。

Agentic 架構定位

模型設計的核心假設是長時程、多步驟工作流（long-horizon tasks）——需要連續規劃、工具呼叫、中間狀態管理的任務。相較於前代 Gemini 2.5，Google 強調 3.5 Flash 更適合自動化程式設計、端到端測試執行與多代理協作場景，而非單輪對話。

四倍速度優勢在 Agentic 場景中意義重大：一個需要連續呼叫模型數十次的工作流，延遲差距會被放大，進而影響整體可用性。

可用管道

Gemini API 與 Google AI Studio
Google Antigravity（原 Project IDX 的 AI 開發平台）
Gemini app 與 Google Search AI Mode
Gemini Enterprise 企業平台
Android Studio

原始來源：Google Blog — Gemini 3.5

Gemini Omni：Google 多模態視訊生成與編輯模型

Google DeepMind · 2026-05-20

Google DeepMind 發布 Gemini Omni，這是一個以視訊為核心輸出的多模態模型，能接受影片、圖像、音訊與文字作為輸入，透過對話式提示進行迭代式視訊生成與編輯。模型整合於 Google Flow 創作平台、Gemini app 及 YouTube Shorts。

輸入與輸出能力

Gemini Omni 的設計重點在於跨模態參考融合——使用者可以提供一張人物照片、一段動作視訊和一段文字描述，模型將三者整合成一段連貫的新視訊。具體支援的操作包括：

對話式視訊編輯：每次提示的修改在前次結果基礎上累積，而非從頭重算
角色與物件替換、相機角度調整、風格遷移
草稿（sketch）轉視訊、文字與畫面動作同步
物理知識驅動的真實感輸出（物體運動符合物理規律）

內容驗證機制

所有 Gemini Omni 生成的內容均嵌入 SynthID 數位水印（不可感知），並加附 C2PA Content Credentials，使下游工具能夠驗證內容來源。Google 將此作為 AI 生成內容可溯源的基礎設施，而非事後標記。

平台整合

Gemini Omni 主要透過 Google Flow 創作平台提供，Flow 定位為視訊製作人的端到端工作環境，整合了 Gemini Omni 的生成能力與 Veo 等其他模型。YouTube Shorts 創作者也可在平台內直接取用。

原始來源：Google DeepMind — Gemini Omni

End of article