AI 前沿 2026 年 6 月 2 日

2026-06-02 — Gemini Omni Flash 多模態生成、DeepMind Co-Scientist 假說錦標賽、Stanford CS336 課程

primary=https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/ primary=https://deepmind.google/blog/co-scientist-a-multi-agent-ai-partner-to-accelerate-research/ primary=https://cs336.stanford.edu/

Gemini Omni Flash:Google 首個多模態生成模型,以視訊創作為起點

Google DeepMind · 2026-05

Google DeepMind 在 2026 年 5 月發布 Gemini Omni Flash,定位為第一個將 Gemini 的推理能力與跨模態生成能力整合於同一模型的系統,目前以視訊輸出作為首發模態,圖像與音訊輸出規劃後續推出。

模型架構與輸入模態

Gemini Omni 接受文字、圖像、音訊、視訊四種輸入模態的任意組合,輸出高品質視訊。不同於只做文字到視訊的獨立生成模型,Omni 的設計哲學是「以 Gemini 的知識為生成基礎」:模型可以理解輸入影像中的物理場景,並在輸出的視訊中保持物理一致性(重力、慣性、流體動力學)。

用戶可提供參考影像或影片片段,指定風格、攝影機運動、特效並讓模型按指令生成,而不需要從零指定每個細節。這種以參考素材引導的生成方式減少了提示詞工程的負擔。

SynthID 水印與內容驗證

所有 Omni 生成的輸出均嵌入 SynthID 不可見數位水印。SynthID 的嵌入方式不依賴後處理附加標頭,而是在生成過程中直接將驗證資訊編碼至像素或音頻特徵中,使水印在合理的壓縮與轉碼操作後仍可被 Google 的驗證工具識別。

Gemini Omni Flash 的定位

Flash 版本以低延遲、低成本為設計目標,對應 Gemini 產品線中 Flash 系列一貫的定位:適合高吞吐量、時間敏感場景,犧牲部分輸出品質換取響應速度。Pro 或更高階的 Omni 版本尚未宣布時程。

Omni 與 Gemini 3.5 系列(純文字/程式碼推理)屬於不同產品線,而非後者的升級版本。

原始來源:Google DeepMind — Introducing Gemini Omni


Google DeepMind Co-Scientist:多代理人假說錦標賽與跨資料庫驗證

Google DeepMind · 2026-05

Google DeepMind 發布 Co-Scientist,一個以 Gemini 模型為底層的多代理人科學研究系統,設計目標是在龐大的文獻空間中自動提出、評估並精煉研究假說。早期合作涵蓋肝纖維化藥物再利用、ALS 治療策略、細胞老化逆轉等生命科學方向。

三階段代理人管線

Co-Scientist 的運作分為三個階段,由一個適應性督導代理人(Adaptive Supervisor)協調所有子代理人並行執行:

  • 生成階段:專用代理人從文獻中提出研究方向與初步假說,並進行聚類以確保多樣性,避免所有假說收斂至同一方向
  • 辯論階段:「虛擬同儕審查員」對每個假說進行批判性評估,Orchestrator 執行成對假說錦標賽(idea tournament)——受 AlphaGo 訓練哲學啟發,讓假說在假設相同的前提下互相競爭排名
  • 演化階段:高排名假說被精煉、重組,Meta-review 代理人匯總多條路徑的洞見,生成最終提案

可驗證性設計

Co-Scientist 的一個關鍵設計決策是將大量運算資源投入驗證而非生成。每個假說在輸出前都會被交叉核對科學文獻,並對照 ChEMBL(藥物化學)和 UniProt(蛋白質序列/功能)等結構化資料庫,確認化合物存在性、蛋白質互動機制在資料上的一致性。

這種「先生成再大量驗證」的策略比讓模型在推理時自我檢查更為可靠,因為驗證代理人與生成代理人是獨立的,不共享偏見。

計算資源需求

Co-Scientist 的並行探索設計對算力需求顯著,目前以 Google 研究合作形式提供給特定機構,尚未作為通用 API 開放。研究人員形容使用體驗「像有一個 50 人團隊,一天內完成所有工作」。

原始來源:Google DeepMind — Co-Scientist


Stanford CS336:從零建構語言模型的完整課程體系

Stanford University · Spring 2026

Stanford 2026 春季課程 CS336: Language Modeling from Scratch 由 Tatsunori Hashimoto 與 Percy Liang 主講,以「讓學生從無到有實作完整語言模型」為目標。課程在 Hacker News 前端持續保持高討論熱度,AI 工程社群對其課程架構給予廣泛關注。

課程架構

五份作業構成完整的訓練 pipeline:

  • 作業一:Tokenizer、Transformer 核心元件、Attention 機制
  • 作業二:PyTorch 最佳化、Triton 自訂 kernel、GPU/TPU 系統層
  • 作業三:Scaling law 分析,理解模型規模與資料量的冪次關係
  • 作業四:原始網頁資料處理——格式轉換、過濾、去重複、合成資料生成
  • 作業五:對齊與推理——SFT、RLHF、安全性調整

整個課程不提供大量 scaffold 程式碼,學生需在 Modal 贊助的 GPU 算力上從頭實作每個元件。

系統層的比重

與多數 ML 課程不同,CS336 在作業二要求學生直接以 Triton 撰寫自訂 CUDA kernel,包含 Flash Attention 變體的記憶體效率優化。這讓課程覆蓋了從應用層(模型架構)到系統層(記憶體傳輸優化、分散式訓練通訊策略)的完整堆疊。

分散式訓練部分涵蓋 Data Parallel、Tensor Parallel 與 Pipeline Parallel 三種策略的實作差異,以及如何在多 GPU 節點間協調梯度同步。

原始來源:Stanford CS336: Language Modeling from Scratch


End of article
0
Would love your thoughts, please comment.x
()
x