Gemini Omni Flash:Google 首個多模態生成模型,以視訊創作為起點
Google DeepMind · 2026-05
Google DeepMind 在 2026 年 5 月發布 Gemini Omni Flash,定位為第一個將 Gemini 的推理能力與跨模態生成能力整合於同一模型的系統,目前以視訊輸出作為首發模態,圖像與音訊輸出規劃後續推出。
模型架構與輸入模態
Gemini Omni 接受文字、圖像、音訊、視訊四種輸入模態的任意組合,輸出高品質視訊。不同於只做文字到視訊的獨立生成模型,Omni 的設計哲學是「以 Gemini 的知識為生成基礎」:模型可以理解輸入影像中的物理場景,並在輸出的視訊中保持物理一致性(重力、慣性、流體動力學)。
用戶可提供參考影像或影片片段,指定風格、攝影機運動、特效並讓模型按指令生成,而不需要從零指定每個細節。這種以參考素材引導的生成方式減少了提示詞工程的負擔。
SynthID 水印與內容驗證
所有 Omni 生成的輸出均嵌入 SynthID 不可見數位水印。SynthID 的嵌入方式不依賴後處理附加標頭,而是在生成過程中直接將驗證資訊編碼至像素或音頻特徵中,使水印在合理的壓縮與轉碼操作後仍可被 Google 的驗證工具識別。
Gemini Omni Flash 的定位
Flash 版本以低延遲、低成本為設計目標,對應 Gemini 產品線中 Flash 系列一貫的定位:適合高吞吐量、時間敏感場景,犧牲部分輸出品質換取響應速度。Pro 或更高階的 Omni 版本尚未宣布時程。
Omni 與 Gemini 3.5 系列(純文字/程式碼推理)屬於不同產品線,而非後者的升級版本。
Google DeepMind Co-Scientist:多代理人假說錦標賽與跨資料庫驗證
Google DeepMind · 2026-05
Google DeepMind 發布 Co-Scientist,一個以 Gemini 模型為底層的多代理人科學研究系統,設計目標是在龐大的文獻空間中自動提出、評估並精煉研究假說。早期合作涵蓋肝纖維化藥物再利用、ALS 治療策略、細胞老化逆轉等生命科學方向。
三階段代理人管線
Co-Scientist 的運作分為三個階段,由一個適應性督導代理人(Adaptive Supervisor)協調所有子代理人並行執行:
- 生成階段:專用代理人從文獻中提出研究方向與初步假說,並進行聚類以確保多樣性,避免所有假說收斂至同一方向
- 辯論階段:「虛擬同儕審查員」對每個假說進行批判性評估,Orchestrator 執行成對假說錦標賽(idea tournament)——受 AlphaGo 訓練哲學啟發,讓假說在假設相同的前提下互相競爭排名
- 演化階段:高排名假說被精煉、重組,Meta-review 代理人匯總多條路徑的洞見,生成最終提案
可驗證性設計
Co-Scientist 的一個關鍵設計決策是將大量運算資源投入驗證而非生成。每個假說在輸出前都會被交叉核對科學文獻,並對照 ChEMBL(藥物化學)和 UniProt(蛋白質序列/功能)等結構化資料庫,確認化合物存在性、蛋白質互動機制在資料上的一致性。
這種「先生成再大量驗證」的策略比讓模型在推理時自我檢查更為可靠,因為驗證代理人與生成代理人是獨立的,不共享偏見。
計算資源需求
Co-Scientist 的並行探索設計對算力需求顯著,目前以 Google 研究合作形式提供給特定機構,尚未作為通用 API 開放。研究人員形容使用體驗「像有一個 50 人團隊,一天內完成所有工作」。
Stanford CS336:從零建構語言模型的完整課程體系
Stanford University · Spring 2026
Stanford 2026 春季課程 CS336: Language Modeling from Scratch 由 Tatsunori Hashimoto 與 Percy Liang 主講,以「讓學生從無到有實作完整語言模型」為目標。課程在 Hacker News 前端持續保持高討論熱度,AI 工程社群對其課程架構給予廣泛關注。
課程架構
五份作業構成完整的訓練 pipeline:
- 作業一:Tokenizer、Transformer 核心元件、Attention 機制
- 作業二:PyTorch 最佳化、Triton 自訂 kernel、GPU/TPU 系統層
- 作業三:Scaling law 分析,理解模型規模與資料量的冪次關係
- 作業四:原始網頁資料處理——格式轉換、過濾、去重複、合成資料生成
- 作業五:對齊與推理——SFT、RLHF、安全性調整
整個課程不提供大量 scaffold 程式碼,學生需在 Modal 贊助的 GPU 算力上從頭實作每個元件。
系統層的比重
與多數 ML 課程不同,CS336 在作業二要求學生直接以 Triton 撰寫自訂 CUDA kernel,包含 Flash Attention 變體的記憶體效率優化。這讓課程覆蓋了從應用層(模型架構)到系統層(記憶體傳輸優化、分散式訓練通訊策略)的完整堆疊。
分散式訓練部分涵蓋 Data Parallel、Tensor Parallel 與 Pipeline Parallel 三種策略的實作差異,以及如何在多 GPU 節點間協調梯度同步。