DFlash:擴散式推測解碼在 Google TPU 上實現 3.13× 推論加速
Google Developers Blog · 2026-05-04
加州大學聖地亞哥分校(UCSD)研究人員與 Google 合作,在 Google TPU 上實作了 DFlash(Diffusion-style Flash Speculative Decoding),相較於傳統自回歸解碼達到平均 3.13× 的推論加速,並已整合進 vLLM 推論框架。這項工作發表於 2026 年 5 月的 Google Developers Blog。
推測解碼的基本原理
傳統推測解碼(Speculative Decoding)使用小型草稿模型(draft model)預先生成多個 token,再由大型驗證模型(target model)一次批量驗證。驗證通過的 token 直接採用,被拒絕的從第一個錯誤位置重新生成。這個方法的瓶頸在於草稿模型與驗證模型的品質差距:草稿品質越低,被拒絕率越高,加速效益越低。
DFlash 的核心改動
DFlash 改用擴散模型(diffusion model)風格的平行 token 生成,一次對整個 token 區塊進行平行預測,而非逐個自回歸生成。關鍵技術要點:
- 草稿生成階段同時預測整個 block 的 token,充分利用 TPU 的矩陣運算平行度
- 驗證階段同樣平行批量處理整個 block,減少序列依賴
- 採用 Flash Attention 的記憶體高效計算模式,降低 HBM(高頻寬記憶體)傳輸瓶頸
- TPU 的 systolic array 架構特別適合這種密集平行矩陣運算,GPU 的 CUDA 優化路徑並不直接適用
效能結果與 vLLM 整合
在多項基準測試中,DFlash 達到的加速比如下:
| 模型規模 | 加速比(vs 自回歸) |
|---|---|
| 7B 參數 | 2.8× |
| 13B 參數 | 3.1× |
| 70B 參數 | 3.4× |
平均加速 3.13× 在不犧牲生成品質(等效輸出分布)的前提下達成。整合進 vLLM 後,現有使用 vLLM 的服務可通過設定切換至 DFlash 後端,不需修改服務層程式碼。這項工作展示了針對特定加速器架構(TPU)量身定制推論演算法的重要性。
UniVidX:以擴散模型先驗統一多模態視訊生成(SIGGRAPH 2026)
arXiv · 2026-05-05
arXiv:2605.00658 提出 UniVidX,一個利用視訊擴散模型(VDM)先驗知識,在單一統一框架內處理多種像素對齊生成任務的架構。這篇論文已被接收於 ACM Transactions on Graphics(SIGGRAPH 2026),目前在 Hugging Face Papers 獲得 67 個 upvotes,是當日最熱門論文。
三個核心技術元件
傳統作法需要為每種生成任務訓練獨立模型(例如:RGB-to-法向量、RGBA 分離等)。UniVidX 透過以下三個機制實現任務統一:
- 隨機條件遮蔽(Stochastic Condition Masking, SCM):訓練時隨機將模態劃分為乾淨條件(clean condition)與雜訊目標(noisy target),讓模型學習多方向的條件生成,而非固定的輸入輸出映射
- 解耦門控 LoRA(Decoupled Gated LoRA, DGL):每個模態獨享一組 LoRA 適配器,只在該模態作為生成目標時啟用,保留 VDM 的原始先驗同時適應模態特定分布
- 跨模態自注意力(Cross-Modal Self-Attention, CMSA):跨模態共享 Key 和 Value,保留模態特定的 Query,促進模態間資訊交換與語意對齊
兩個實例化模型
論文在兩個具體領域實例化 UniVidX:
- UniVid-Intrinsic:同時處理 RGB 視訊與內在圖(albedo 反射率、irradiance 照度、normal 法向量),支援光照分解與重新打光
- UniVid-Alpha:從混合 RGB 視訊中分離出 RGBA 各層,用於視訊摳像與合成
兩個模型均在少於 1,000 段訓練視訊的情況下達到具競爭力的效能,並在真實世界場景中展示了強泛化能力。這個資料效率源自於充分利用預訓練 VDM 的先驗知識,而非從零訓練。
原始來源:arXiv:2605.00658
Web2BigTable:雙層多代理人 LLM 系統實現網際網路規模資訊提取
arXiv · 2026-05-05
arXiv:2604.27221 提出 Web2BigTable,一個專為大規模網路資訊搜尋與結構化提取設計的雙層(bi-level)多代理人框架。在 WideSearch 基準測試上,Web2BigTable 的 Avg@4 成功率達到 38.50,比第二名系統的 5.10 高出 7.5 倍。
雙層架構設計
Web2BigTable 面對兩種截然不同的搜尋任務:對單一目標的深度推理,以及跨多個實體的廣度結構化聚合。雙層架構如下:
- 上層:編排代理人(Orchestrator):負責任務分解,將複雜搜尋請求拆解為可並行處理的子問題
- 下層:工作代理人(Workers):平行執行各子問題,結果彙整回編排層
工作代理人之間透過共享工作空間(Shared Workspace)協調,部分結果對所有代理人可見,讓它們能減少重複探索、調和衝突證據、並動態適應覆蓋缺口。
閉環學習與持久記憶
系統實作了執行—驗證—反思(run-verify-reflect)循環,持續改進任務分解品質與執行策略。外部記憶採用人類可讀格式,支援自我進化更新,讓系統能跨任務累積搜尋經驗。
實驗結果
| 指標 | Web2BigTable | 第二名 |
|---|---|---|
| Avg@4 成功率 | 38.50 | 5.10 |
| Row F1 | 63.53 | (+25.03) |
| Item F1 | 80.12 | (+14.42) |
在深度導向的 XBench-DeepSearch 測試中同樣達到 73.0% 準確率,顯示廣度聚合與深度推理能力可在同一架構中兼顧。Web2BigTable 的設計代表多代理人協調向標準化結構化提取基準邁進的重要里程碑。
原始來源:arXiv:2604.27221