Google Gemini Omni:以多模態輸入驅動影片生成的新模型
blog.google · 2026-05-27
Google 於 2026 年 5 月推出 Gemini Omni Flash,這是一個以影片生成為核心能力的多模態模型,接受圖片、音訊、影片與文字輸入,目前輸出以影片為主,後續將開放圖片與音訊輸出。Gemini Omni 已向 Google AI Plus、Pro 及 Ultra 訂閱用戶開放,並整合至 Google Flow 創作平台。
核心能力
Gemini Omni 的主要應用場景是對話式影片編輯:使用者可透過多輪自然語言提示逐步精修影片,模型在每次修改間維持場景一致性(scene consistency)。模型宣稱具備改進的直覺物理推理能力,能理解重力、動能、流體動力學等物理現象,使生成畫面更符合現實。
「Omni」名稱強調其跨模態統一輸出能力:以文字、圖片、影片或音訊中任一形式作為參考輸入,均能生成統一風格的影片輸出。模型另支援以使用者自身聲音為基礎的 Avatar 影片生成。
與前代模型的差異
Google 在同期發布的 Gemini 3.5 定位為「具備行動能力的前沿推理」,而 Gemini Omni 則專注在從推理到生成的橋接:將 Gemini 系列的世界知識與推理能力直接連結至多模態內容生成,而非單純的圖像或影片生成模型。相較於 Nano Banana(圖像生成)的偏靜態輸出,Omni 的設計重心在於連貫的影片敘事。
開放狀態
Gemini Omni Flash 目前已在 Gemini 應用程式、Google Flow、YouTube Shorts 及 YouTube Create 上線,後者兩者可免費使用。開發者與企業 API 存取預計在接下來數週內開放。Google 未在發布文章中提供標準化基準測試數字。
原始來源:blog.google
QUEST:以全合成任務訓練深度研究代理,開源模型接近前沿系統表現
arXiv:2605.24218 · 2026-05-27
深度研究代理(deep research agent)需要跨多步驟的文件檢索、事實核查與報告合成能力,但訓練資料的取得十分困難。QUEST 提出一套以全合成任務訓練深度研究代理的方法,僅使用 8,000 個合成訓練樣本,在 8 項深度研究基準上接近甚至超越閉源前沿系統。模型系列規模從 2B 至 35B 參數,已開源發布。
核心方法:統一評分樹
QUEST 的訓練資料生成核心是統一評分樹(unified rubric tree)管線:以結構化的評分標準描述不同類型研究任務(事實查詢、引用根據、報告合成),自動生成可驗證獎勵信號的合成訓練樣本,無需人工標注。這解決了深度研究訓練資料昂貴且稀少的關鍵問題。
訓練流程結合中期訓練(mid-training)、監督微調(SFT)與強化學習(RL)三階段,並引入內建上下文管理機制,使模型能在長程搜索任務中有效維護與合成多份文件的知識。
基準表現
QUEST 在涵蓋多種任務類型的 8 項深度研究基準上,達到開源權重代理中的最佳整體表現,並在部分基準上超越閉源前沿代理。論文作者強調,以 8K 合成樣本達成此表現,顯示資料合成管線的效率顯著高於需要大量人工標注的傳統路徑。
原始來源:arXiv:2605.24218
ThriftAttention:選擇性混合精度,以 5% FP16 計算恢復 FP4 注意力品質的 89%
arXiv:2605.23081 · 2026-05-27
FP4 量化能大幅降低大型語言模型的推論延遲,但在長上下文情境下,注意力層的量化誤差高度不均勻,集中在少數關鍵 query-key 區塊,導致 FP4 與 FP16 之間存在明顯品質落差。ThriftAttention(arXiv:2605.23081)提出一種選擇性混合精度策略,以極低的額外計算量彌補這個落差。
機制
ThriftAttention 分為兩個階段執行:
- 選擇階段:以啟發式規則快速識別對輸出影響顯著的 query-key 區塊子集,這些區塊對應功能關鍵 token(如語義錨點、長程依賴)。
- 計算階段:被選中的區塊以 FP16 精度計算,其餘使用 FP4,最後透過 online softmax 合併結果。
論文觀察到量化誤差的影響高度集中於少數區塊,並非均勻分布,這是選擇性策略有效的根本原因。
實驗結果
僅選擇 5% 的 query-key 區塊以 FP16 計算,ThriftAttention 平均恢復 FP4 到 FP16 品質落差的 89.1%。優勢隨序列長度增長而擴大,在長上下文推論場景下效果最為顯著。程式碼已隨論文在 GitHub 開源。
原始來源:arXiv:2605.23081