2026-05-27 — Gemini Omni 多模態影片、QUEST 深度研究代理、ThriftAttention FP4

Google Gemini Omni：以多模態輸入驅動影片生成的新模型

blog.google · 2026-05-27

Google 於 2026 年 5 月推出 Gemini Omni Flash，這是一個以影片生成為核心能力的多模態模型，接受圖片、音訊、影片與文字輸入，目前輸出以影片為主，後續將開放圖片與音訊輸出。Gemini Omni 已向 Google AI Plus、Pro 及 Ultra 訂閱用戶開放，並整合至 Google Flow 創作平台。

核心能力

Gemini Omni 的主要應用場景是對話式影片編輯：使用者可透過多輪自然語言提示逐步精修影片，模型在每次修改間維持場景一致性（scene consistency）。模型宣稱具備改進的直覺物理推理能力，能理解重力、動能、流體動力學等物理現象，使生成畫面更符合現實。

「Omni」名稱強調其跨模態統一輸出能力：以文字、圖片、影片或音訊中任一形式作為參考輸入，均能生成統一風格的影片輸出。模型另支援以使用者自身聲音為基礎的 Avatar 影片生成。

與前代模型的差異

Google 在同期發布的 Gemini 3.5 定位為「具備行動能力的前沿推理」，而 Gemini Omni 則專注在從推理到生成的橋接：將 Gemini 系列的世界知識與推理能力直接連結至多模態內容生成，而非單純的圖像或影片生成模型。相較於 Nano Banana（圖像生成）的偏靜態輸出，Omni 的設計重心在於連貫的影片敘事。

開放狀態

Gemini Omni Flash 目前已在 Gemini 應用程式、Google Flow、YouTube Shorts 及 YouTube Create 上線，後者兩者可免費使用。開發者與企業 API 存取預計在接下來數週內開放。Google 未在發布文章中提供標準化基準測試數字。

原始來源：blog.google

QUEST：以全合成任務訓練深度研究代理，開源模型接近前沿系統表現

arXiv:2605.24218 · 2026-05-27

深度研究代理（deep research agent）需要跨多步驟的文件檢索、事實核查與報告合成能力，但訓練資料的取得十分困難。QUEST 提出一套以全合成任務訓練深度研究代理的方法，僅使用 8,000 個合成訓練樣本，在 8 項深度研究基準上接近甚至超越閉源前沿系統。模型系列規模從 2B 至 35B 參數，已開源發布。

核心方法：統一評分樹

QUEST 的訓練資料生成核心是統一評分樹（unified rubric tree）管線：以結構化的評分標準描述不同類型研究任務（事實查詢、引用根據、報告合成），自動生成可驗證獎勵信號的合成訓練樣本，無需人工標注。這解決了深度研究訓練資料昂貴且稀少的關鍵問題。

訓練流程結合中期訓練（mid-training）、監督微調（SFT）與強化學習（RL）三階段，並引入內建上下文管理機制，使模型能在長程搜索任務中有效維護與合成多份文件的知識。

基準表現

QUEST 在涵蓋多種任務類型的 8 項深度研究基準上，達到開源權重代理中的最佳整體表現，並在部分基準上超越閉源前沿代理。論文作者強調，以 8K 合成樣本達成此表現，顯示資料合成管線的效率顯著高於需要大量人工標注的傳統路徑。

原始來源：arXiv:2605.24218

ThriftAttention：選擇性混合精度，以 5% FP16 計算恢復 FP4 注意力品質的 89%

arXiv:2605.23081 · 2026-05-27

FP4 量化能大幅降低大型語言模型的推論延遲，但在長上下文情境下，注意力層的量化誤差高度不均勻，集中在少數關鍵 query-key 區塊，導致 FP4 與 FP16 之間存在明顯品質落差。ThriftAttention（arXiv:2605.23081）提出一種選擇性混合精度策略，以極低的額外計算量彌補這個落差。

機制

ThriftAttention 分為兩個階段執行：

選擇階段：以啟發式規則快速識別對輸出影響顯著的 query-key 區塊子集，這些區塊對應功能關鍵 token（如語義錨點、長程依賴）。
計算階段：被選中的區塊以 FP16 精度計算，其餘使用 FP4，最後透過 online softmax 合併結果。

論文觀察到量化誤差的影響高度集中於少數區塊，並非均勻分布，這是選擇性策略有效的根本原因。

實驗結果

僅選擇 5% 的 query-key 區塊以 FP16 計算，ThriftAttention 平均恢復 FP4 到 FP16 品質落差的 89.1%。優勢隨序列長度增長而擴大，在長上下文推論場景下效果最為顯著。程式碼已隨論文在 GitHub 開源。

原始來源：arXiv:2605.23081

End of article