2026-06-02 — Gemini Omni Flash 多模態生成、DeepMind Co-Scientist 假說錦標賽、Stanford CS336 課程

Gemini Omni Flash：Google 首個多模態生成模型，以視訊創作為起點

Google DeepMind · 2026-05

Google DeepMind 在 2026 年 5 月發布 Gemini Omni Flash，定位為第一個將 Gemini 的推理能力與跨模態生成能力整合於同一模型的系統，目前以視訊輸出作為首發模態，圖像與音訊輸出規劃後續推出。

模型架構與輸入模態

Gemini Omni 接受文字、圖像、音訊、視訊四種輸入模態的任意組合，輸出高品質視訊。不同於只做文字到視訊的獨立生成模型，Omni 的設計哲學是「以 Gemini 的知識為生成基礎」：模型可以理解輸入影像中的物理場景，並在輸出的視訊中保持物理一致性（重力、慣性、流體動力學）。

用戶可提供參考影像或影片片段，指定風格、攝影機運動、特效並讓模型按指令生成，而不需要從零指定每個細節。這種以參考素材引導的生成方式減少了提示詞工程的負擔。

SynthID 水印與內容驗證

所有 Omni 生成的輸出均嵌入 SynthID 不可見數位水印。SynthID 的嵌入方式不依賴後處理附加標頭，而是在生成過程中直接將驗證資訊編碼至像素或音頻特徵中，使水印在合理的壓縮與轉碼操作後仍可被 Google 的驗證工具識別。

Gemini Omni Flash 的定位

Flash 版本以低延遲、低成本為設計目標，對應 Gemini 產品線中 Flash 系列一貫的定位：適合高吞吐量、時間敏感場景，犧牲部分輸出品質換取響應速度。Pro 或更高階的 Omni 版本尚未宣布時程。

Omni 與 Gemini 3.5 系列（純文字/程式碼推理）屬於不同產品線，而非後者的升級版本。

原始來源：Google DeepMind — Introducing Gemini Omni

Google DeepMind Co-Scientist：多代理人假說錦標賽與跨資料庫驗證

Google DeepMind · 2026-05

Google DeepMind 發布 Co-Scientist，一個以 Gemini 模型為底層的多代理人科學研究系統，設計目標是在龐大的文獻空間中自動提出、評估並精煉研究假說。早期合作涵蓋肝纖維化藥物再利用、ALS 治療策略、細胞老化逆轉等生命科學方向。

三階段代理人管線

Co-Scientist 的運作分為三個階段，由一個適應性督導代理人（Adaptive Supervisor）協調所有子代理人並行執行：

生成階段：專用代理人從文獻中提出研究方向與初步假說，並進行聚類以確保多樣性，避免所有假說收斂至同一方向
辯論階段：「虛擬同儕審查員」對每個假說進行批判性評估，Orchestrator 執行成對假說錦標賽（idea tournament）——受 AlphaGo 訓練哲學啟發，讓假說在假設相同的前提下互相競爭排名
演化階段：高排名假說被精煉、重組，Meta-review 代理人匯總多條路徑的洞見，生成最終提案

可驗證性設計

Co-Scientist 的一個關鍵設計決策是將大量運算資源投入驗證而非生成。每個假說在輸出前都會被交叉核對科學文獻，並對照 ChEMBL（藥物化學）和 UniProt（蛋白質序列/功能）等結構化資料庫，確認化合物存在性、蛋白質互動機制在資料上的一致性。

這種「先生成再大量驗證」的策略比讓模型在推理時自我檢查更為可靠，因為驗證代理人與生成代理人是獨立的，不共享偏見。

計算資源需求

Co-Scientist 的並行探索設計對算力需求顯著，目前以 Google 研究合作形式提供給特定機構，尚未作為通用 API 開放。研究人員形容使用體驗「像有一個 50 人團隊，一天內完成所有工作」。

原始來源：Google DeepMind — Co-Scientist

Stanford CS336：從零建構語言模型的完整課程體系

Stanford University · Spring 2026

Stanford 2026 春季課程 CS336: Language Modeling from Scratch 由 Tatsunori Hashimoto 與 Percy Liang 主講，以「讓學生從無到有實作完整語言模型」為目標。課程在 Hacker News 前端持續保持高討論熱度，AI 工程社群對其課程架構給予廣泛關注。

課程架構

五份作業構成完整的訓練 pipeline：

作業一：Tokenizer、Transformer 核心元件、Attention 機制
作業二：PyTorch 最佳化、Triton 自訂 kernel、GPU/TPU 系統層
作業三：Scaling law 分析，理解模型規模與資料量的冪次關係
作業四：原始網頁資料處理——格式轉換、過濾、去重複、合成資料生成
作業五：對齊與推理——SFT、RLHF、安全性調整

整個課程不提供大量 scaffold 程式碼，學生需在 Modal 贊助的 GPU 算力上從頭實作每個元件。

系統層的比重

與多數 ML 課程不同，CS336 在作業二要求學生直接以 Triton 撰寫自訂 CUDA kernel，包含 Flash Attention 變體的記憶體效率優化。這讓課程覆蓋了從應用層（模型架構）到系統層（記憶體傳輸優化、分散式訓練通訊策略）的完整堆疊。

分散式訓練部分涵蓋 Data Parallel、Tensor Parallel 與 Pipeline Parallel 三種策略的實作差異，以及如何在多 GPU 節點間協調梯度同步。

原始來源：Stanford CS336: Language Modeling from Scratch

End of article