Gemini 3.5 Flash 發布:高速 Agentic 模型的 frontier 效能
Google Blog · 2026-05-20
Google 於 2026 年 5 月 20 日正式發布 Gemini 3.5 Flash,定位為 Agentic 任務與程式設計的新旗艦模型。官方聲稱其輸出 token 速度達到主要 frontier 競爭模型的四倍,同時在多個 Agentic 基準測試中拿下頂尖成績。Gemini 3.5 Pro 預計於下個月跟進發布。
核心效能數字
官方公布的基準測試結果如下:
- Terminal-Bench 2.1:76.2%
- GDPval-AA(Agentic 評分):1656 Elo
- MCP Atlas:83.6%
- CharXiv Reasoning(多模態):84.2%
在 Artificial Analysis Intelligence Index 中,Gemini 3.5 Flash 落在「高智能 × 高速度」象限,顯示 Google 刻意在效能與回應速度之間取得平衡,而非純粹拼測試分數。
Agentic 架構定位
模型設計的核心假設是長時程、多步驟工作流(long-horizon tasks)——需要連續規劃、工具呼叫、中間狀態管理的任務。相較於前代 Gemini 2.5,Google 強調 3.5 Flash 更適合自動化程式設計、端到端測試執行與多代理協作場景,而非單輪對話。
四倍速度優勢在 Agentic 場景中意義重大:一個需要連續呼叫模型數十次的工作流,延遲差距會被放大,進而影響整體可用性。
可用管道
- Gemini API 與 Google AI Studio
- Google Antigravity(原 Project IDX 的 AI 開發平台)
- Gemini app 與 Google Search AI Mode
- Gemini Enterprise 企業平台
- Android Studio
Gemini Omni:Google 多模態視訊生成與編輯模型
Google DeepMind · 2026-05-20
Google DeepMind 發布 Gemini Omni,這是一個以視訊為核心輸出的多模態模型,能接受影片、圖像、音訊與文字作為輸入,透過對話式提示進行迭代式視訊生成與編輯。模型整合於 Google Flow 創作平台、Gemini app 及 YouTube Shorts。
輸入與輸出能力
Gemini Omni 的設計重點在於跨模態參考融合——使用者可以提供一張人物照片、一段動作視訊和一段文字描述,模型將三者整合成一段連貫的新視訊。具體支援的操作包括:
- 對話式視訊編輯:每次提示的修改在前次結果基礎上累積,而非從頭重算
- 角色與物件替換、相機角度調整、風格遷移
- 草稿(sketch)轉視訊、文字與畫面動作同步
- 物理知識驅動的真實感輸出(物體運動符合物理規律)
內容驗證機制
所有 Gemini Omni 生成的內容均嵌入 SynthID 數位水印(不可感知),並加附 C2PA Content Credentials,使下游工具能夠驗證內容來源。Google 將此作為 AI 生成內容可溯源的基礎設施,而非事後標記。
平台整合
Gemini Omni 主要透過 Google Flow 創作平台提供,Flow 定位為視訊製作人的端到端工作環境,整合了 Gemini Omni 的生成能力與 Veo 等其他模型。YouTube Shorts 創作者也可在平台內直接取用。