2026-05-21 — Gemini Omni 多模態生成、Co-Scientist 多代理科研系統、OpenAI 推翻 Erdős 幾何猜想

Gemini Omni：Google 從頭設計的原生多模態生成模型，首發影片輸出

Google DeepMind · 2026-05-21

Google 在 I/O 2026 推出 Gemini Omni，定位為「從頭開始原生多模態」的生成模型家族。首個對外開放的成員是 Gemini Omni Flash，以影片生成與編輯為核心能力，可透過 Gemini 應用程式、Google Flow 與 YouTube Shorts/Create 使用。開發者 API 預計數週內開放。

核心改動

與先前 Gemini 系列側重推理不同，Omni 強調創作生成。使用者可將圖像、音頻、影片與文字混合作為輸入參考，模型透過自然語言指令進行影片生成與反覆編輯，並在多輪對話中維持角色外觀、物理行為與場景連貫性。

Google 在公告中指出模型具備「改良後的直覺物理理解」，能在生成時對重力、動能、流體動力學等進行合理建模。Omni 也支援從參考素材提取動作模式或視覺風格並套用到新內容，例如：上傳一段舞蹈影片，讓模型將相同的動作套用到另一個場景。所有生成內容均嵌入 SynthID 水印，並附加 C2PA Content Credentials 供下游工具驗證。

與 Gemini 3.5 的分工

同日發布的 Gemini 3.5 Flash 主攻長時程 Agentic 任務，在 Terminal-Bench 2.1 達 76.2%、MCP Atlas 83.6%，官方聲稱輸出速度比主要競品快 4 倍。Gemini 3.5 Pro 預計下個月發布。Omni 與 3.5 定位明確分開：前者是創作生成工具，後者是推理代理模型。

影響範圍

目前影片輸出是唯一已上線的生成模態，圖像與音頻輸出標記為「即將推出」。公告未揭露架構細節或訓練方法，也未提供與同期競品的量化比較。企業與開發者 API 存取方式尚未宣布定價，僅表示透過 Gemini API 釋出。

原始來源：Google DeepMind — Introducing Gemini Omni、Gemini 3.5 Flash 公告

Co-Scientist：DeepMind 六代理系統以「想法錦標賽」機制加速科研假說生成

Google DeepMind · 2026-05-21

DeepMind 在 Google I/O 2026 正式推出 Co-Scientist，這是建立在 Gemini 之上的多代理科研系統，將假說生成拆分為「生成 → 辯論 → 演化」三個迭代階段。不同於單一模型的問答模式，Co-Scientist 透過六類專門代理的協作，並以監督代理（supervisor agent）動態排程平行執行。

系統架構

六類代理各司其職：Generation Agent 根據科學文獻提出初始假說；Proximity Agent 對假說聚類確保探索多樣性；Reflection Agent 扮演虛擬同行評審者，從正確性、品質與新穎性篩選；Ranking Agent 組織「想法錦標賽（idea tournament）」，以 Elo 排名和成對比較排序最有潛力的路線；Evolution Agent 精煉並組合頂端假說；Meta-review Agent 綜合辯論洞見生成最終研究提案。

錦標賽機制借鑒 AlphaGo、AlphaStar 的設計，但應用於科學命題。系統將大部分算力配置給假說驗證，透過 ChEMBL、UniProt 等資料庫交叉核實引用，生命科學任務可整合 AlphaFold 與 AlphaGenome。CBRN（化生放核）領域部署自訂安全分類器偵測濫用意圖。

實驗結果

DeepMind 列舉的已發表驗證應用案例包括：肝纖維化（達到 91% 的纖維化相關反應阻斷率）、ALS 的 RNA 療法路線、抗菌素抗藥性、植物免疫與細胞老化逆轉研究。企業合作方包括 Daiichi Sankyo、Bayer Crop Science 與美國國家實驗室。

影響範圍

Co-Scientist 從 2026 年 5 月起透過 labs.google/science 開放個人研究者申請，企業方案走 Google Cloud 通道。系統明確定位為「研究夥伴而非替代者」，輸出的科學與臨床判斷責任仍歸研究者。同日發布的 Gemini for Science 套組還包括基於 AlphaEvolve 的 Computational Discovery 工具，以及 Literature Insights（基於 NotebookLM），連接 30 個以上生命科學資料庫。

原始來源：DeepMind — Co-Scientist、Gemini for Science I/O 2026

OpenAI 通用推理模型推翻 Erdős 1946 幾何猜想，以代數數論解決離散幾何問題

OpenAI · 2026-05-20

一個 OpenAI 的通用推理模型在未經特定調優的情況下，推翻了離散幾何領域的核心問題——平面單位距離問題（planar unit distance problem）。這是 AI 首次自主解決數學界的重要開放問題，結果已由普林斯頓數學家 Will Sawin 精煉並以固定指數形式表述，Fields Medal 得主 Tim Gowers 等人完成同行驗證。

問題背景

1946 年，Paul Erdős 提出：在平面上任意擺放 n 個點，最多有多少對點之間的距離恰好等於 1？Erdős 猜想這個數量只能「比線性增長稍快」，且數十年來數學家都認為類似正方格子的排列方式是最佳解。此問題在離散幾何、組合數學與加性數論的交叉地帶，長期無重大進展。

AI 的突破路徑

OpenAI 模型找到了一個無窮多個點排列的新家族，能產生比正方格子方案顯著更多的單位距離對。突破口不在幾何技巧，而是將問題連結到代數數論——具體用到了 infinite class field towers 與 Golod-Shafarevich 理論，這些工具在此之前幾乎從未出現在幾何問題的解法中。

使用的是通用推理模型，不是針對數學問題特別訓練的專用系統，也沒有依賴 Lean、Coq 等定理證明軟件——證明直接以數學推理形式生成。Sawin 的精煉版以固定指數量化了改進幅度，論文已提交預印本並正接受審稿。

影響範圍

此結果對 Erdős 距離問題的多個相關分支構成直接影響，並展示通用推理模型可以在數論與幾何之間建立非顯而易見的橋接。對數學研究方法論本身的示範意義在於：AI 不僅加速既有路徑的搜尋，也能發現人類研究者從未嘗試的跨學科連結。

原始來源：OpenAI 公告、Interesting Engineering 報導

End of article

Gemini Omni：Google 從頭設計的原生多模態生成模型，首發影片輸出

核心改動

與 Gemini 3.5 的分工

影響範圍

Co-Scientist：DeepMind 六代理系統以「想法錦標賽」機制加速科研假說生成

系統架構

實驗結果

影響範圍

OpenAI 通用推理模型推翻 Erdős 1946 幾何猜想，以代數數論解決離散幾何問題

問題背景

AI 的突破路徑

影響範圍

More on this topic