Gemini Omni:Google 從頭設計的原生多模態生成模型,首發影片輸出
Google DeepMind · 2026-05-21
Google 在 I/O 2026 推出 Gemini Omni,定位為「從頭開始原生多模態」的生成模型家族。首個對外開放的成員是 Gemini Omni Flash,以影片生成與編輯為核心能力,可透過 Gemini 應用程式、Google Flow 與 YouTube Shorts/Create 使用。開發者 API 預計數週內開放。
核心改動
與先前 Gemini 系列側重推理不同,Omni 強調創作生成。使用者可將圖像、音頻、影片與文字混合作為輸入參考,模型透過自然語言指令進行影片生成與反覆編輯,並在多輪對話中維持角色外觀、物理行為與場景連貫性。
Google 在公告中指出模型具備「改良後的直覺物理理解」,能在生成時對重力、動能、流體動力學等進行合理建模。Omni 也支援從參考素材提取動作模式或視覺風格並套用到新內容,例如:上傳一段舞蹈影片,讓模型將相同的動作套用到另一個場景。所有生成內容均嵌入 SynthID 水印,並附加 C2PA Content Credentials 供下游工具驗證。
與 Gemini 3.5 的分工
同日發布的 Gemini 3.5 Flash 主攻長時程 Agentic 任務,在 Terminal-Bench 2.1 達 76.2%、MCP Atlas 83.6%,官方聲稱輸出速度比主要競品快 4 倍。Gemini 3.5 Pro 預計下個月發布。Omni 與 3.5 定位明確分開:前者是創作生成工具,後者是推理代理模型。
影響範圍
目前影片輸出是唯一已上線的生成模態,圖像與音頻輸出標記為「即將推出」。公告未揭露架構細節或訓練方法,也未提供與同期競品的量化比較。企業與開發者 API 存取方式尚未宣布定價,僅表示透過 Gemini API 釋出。
原始來源:Google DeepMind — Introducing Gemini Omni、Gemini 3.5 Flash 公告
Co-Scientist:DeepMind 六代理系統以「想法錦標賽」機制加速科研假說生成
Google DeepMind · 2026-05-21
DeepMind 在 Google I/O 2026 正式推出 Co-Scientist,這是建立在 Gemini 之上的多代理科研系統,將假說生成拆分為「生成 → 辯論 → 演化」三個迭代階段。不同於單一模型的問答模式,Co-Scientist 透過六類專門代理的協作,並以監督代理(supervisor agent)動態排程平行執行。
系統架構
六類代理各司其職:Generation Agent 根據科學文獻提出初始假說;Proximity Agent 對假說聚類確保探索多樣性;Reflection Agent 扮演虛擬同行評審者,從正確性、品質與新穎性篩選;Ranking Agent 組織「想法錦標賽(idea tournament)」,以 Elo 排名和成對比較排序最有潛力的路線;Evolution Agent 精煉並組合頂端假說;Meta-review Agent 綜合辯論洞見生成最終研究提案。
錦標賽機制借鑒 AlphaGo、AlphaStar 的設計,但應用於科學命題。系統將大部分算力配置給假說驗證,透過 ChEMBL、UniProt 等資料庫交叉核實引用,生命科學任務可整合 AlphaFold 與 AlphaGenome。CBRN(化生放核)領域部署自訂安全分類器偵測濫用意圖。
實驗結果
DeepMind 列舉的已發表驗證應用案例包括:肝纖維化(達到 91% 的纖維化相關反應阻斷率)、ALS 的 RNA 療法路線、抗菌素抗藥性、植物免疫與細胞老化逆轉研究。企業合作方包括 Daiichi Sankyo、Bayer Crop Science 與美國國家實驗室。
影響範圍
Co-Scientist 從 2026 年 5 月起透過 labs.google/science 開放個人研究者申請,企業方案走 Google Cloud 通道。系統明確定位為「研究夥伴而非替代者」,輸出的科學與臨床判斷責任仍歸研究者。同日發布的 Gemini for Science 套組還包括基於 AlphaEvolve 的 Computational Discovery 工具,以及 Literature Insights(基於 NotebookLM),連接 30 個以上生命科學資料庫。
OpenAI 通用推理模型推翻 Erdős 1946 幾何猜想,以代數數論解決離散幾何問題
OpenAI · 2026-05-20
一個 OpenAI 的通用推理模型在未經特定調優的情況下,推翻了離散幾何領域的核心問題——平面單位距離問題(planar unit distance problem)。這是 AI 首次自主解決數學界的重要開放問題,結果已由普林斯頓數學家 Will Sawin 精煉並以固定指數形式表述,Fields Medal 得主 Tim Gowers 等人完成同行驗證。
問題背景
1946 年,Paul Erdős 提出:在平面上任意擺放 n 個點,最多有多少對點之間的距離恰好等於 1?Erdős 猜想這個數量只能「比線性增長稍快」,且數十年來數學家都認為類似正方格子的排列方式是最佳解。此問題在離散幾何、組合數學與加性數論的交叉地帶,長期無重大進展。
AI 的突破路徑
OpenAI 模型找到了一個無窮多個點排列的新家族,能產生比正方格子方案顯著更多的單位距離對。突破口不在幾何技巧,而是將問題連結到代數數論——具體用到了 infinite class field towers 與 Golod-Shafarevich 理論,這些工具在此之前幾乎從未出現在幾何問題的解法中。
使用的是通用推理模型,不是針對數學問題特別訓練的專用系統,也沒有依賴 Lean、Coq 等定理證明軟件——證明直接以數學推理形式生成。Sawin 的精煉版以固定指數量化了改進幅度,論文已提交預印本並正接受審稿。
影響範圍
此結果對 Erdős 距離問題的多個相關分支構成直接影響,並展示通用推理模型可以在數論與幾何之間建立非顯而易見的橋接。對數學研究方法論本身的示範意義在於:AI 不僅加速既有路徑的搜尋,也能發現人類研究者從未嘗試的跨學科連結。