AI 前沿 2026 年 5 月 20 日

2026-05-20 — Gemini 3.5 Flash 高速 Agentic 模型、Gemini Omni 多模態視訊生成

primary=https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/ primary=https://deepmind.google/models/gemini-omni/

Gemini 3.5 Flash 發布:高速 Agentic 模型的 frontier 效能

Google Blog · 2026-05-20

Google 於 2026 年 5 月 20 日正式發布 Gemini 3.5 Flash,定位為 Agentic 任務與程式設計的新旗艦模型。官方聲稱其輸出 token 速度達到主要 frontier 競爭模型的四倍,同時在多個 Agentic 基準測試中拿下頂尖成績。Gemini 3.5 Pro 預計於下個月跟進發布。

核心效能數字

官方公布的基準測試結果如下:

  • Terminal-Bench 2.1:76.2%
  • GDPval-AA(Agentic 評分):1656 Elo
  • MCP Atlas:83.6%
  • CharXiv Reasoning(多模態):84.2%

在 Artificial Analysis Intelligence Index 中,Gemini 3.5 Flash 落在「高智能 × 高速度」象限,顯示 Google 刻意在效能與回應速度之間取得平衡,而非純粹拼測試分數。

Agentic 架構定位

模型設計的核心假設是長時程、多步驟工作流(long-horizon tasks)——需要連續規劃、工具呼叫、中間狀態管理的任務。相較於前代 Gemini 2.5,Google 強調 3.5 Flash 更適合自動化程式設計、端到端測試執行與多代理協作場景,而非單輪對話。

四倍速度優勢在 Agentic 場景中意義重大:一個需要連續呼叫模型數十次的工作流,延遲差距會被放大,進而影響整體可用性。

可用管道

  • Gemini API 與 Google AI Studio
  • Google Antigravity(原 Project IDX 的 AI 開發平台)
  • Gemini app 與 Google Search AI Mode
  • Gemini Enterprise 企業平台
  • Android Studio

原始來源:Google Blog — Gemini 3.5


Gemini Omni:Google 多模態視訊生成與編輯模型

Google DeepMind · 2026-05-20

Google DeepMind 發布 Gemini Omni,這是一個以視訊為核心輸出的多模態模型,能接受影片、圖像、音訊與文字作為輸入,透過對話式提示進行迭代式視訊生成與編輯。模型整合於 Google Flow 創作平台、Gemini app 及 YouTube Shorts。

輸入與輸出能力

Gemini Omni 的設計重點在於跨模態參考融合——使用者可以提供一張人物照片、一段動作視訊和一段文字描述,模型將三者整合成一段連貫的新視訊。具體支援的操作包括:

  • 對話式視訊編輯:每次提示的修改在前次結果基礎上累積,而非從頭重算
  • 角色與物件替換、相機角度調整、風格遷移
  • 草稿(sketch)轉視訊、文字與畫面動作同步
  • 物理知識驅動的真實感輸出(物體運動符合物理規律)

內容驗證機制

所有 Gemini Omni 生成的內容均嵌入 SynthID 數位水印(不可感知),並加附 C2PA Content Credentials,使下游工具能夠驗證內容來源。Google 將此作為 AI 生成內容可溯源的基礎設施,而非事後標記。

平台整合

Gemini Omni 主要透過 Google Flow 創作平台提供,Flow 定位為視訊製作人的端到端工作環境,整合了 Gemini Omni 的生成能力與 Veo 等其他模型。YouTube Shorts 創作者也可在平台內直接取用。

原始來源:Google DeepMind — Gemini Omni


End of article
0
Would love your thoughts, please comment.x
()
x