2026-05-25 — NVIDIA Nemotron Diffusion LM 4× 加速、IBM Open Agent Leaderboard、Continuous Batching 非同步優化

NVIDIA Nemotron-Labs Diffusion LM：並行生成加速 4× 的語言模型架構

NVIDIA / Hugging Face Blog · 2026-05-23

NVIDIA 發布了 Nemotron-Labs Diffusion Language Model 系列，包含 3B、8B、14B 文字模型與一個 8B 視覺語言模型（VLM）。與傳統自回歸模型不同，Diffusion LM 以並行方式生成 32-token 區塊，再迭代精煉，在 B200 GPU 上達到約 865 tok/s，約為同等自回歸模型的 4×。模型採用商業友好的 NVIDIA Nemotron Open Model License 授權。

架構與訓練

Nemotron-Labs Diffusion 系列基於 Efficient-DLM 框架（arXiv:2512.14067），核心創新在於將擴散能力注入現有自回歸模型：透過聯合 AR 與 Diffusion 訓練目標、Block-wise Attention 機制（保留 KV-cache 相容性），以及在預訓練 AR 模型上繼續訓練來實現轉換，無需從頭訓練。預訓練使用 1.3T tokens，監督式微調使用 45B tokens。

模型提供三種推論模式：

Autoregressive Mode：標準左到右 LLM，與現有工作流完全相容
Diffusion Mode（FastDiffuser）：以信心閾值（confidence thresholding）迭代生成 32-token 區塊
Self-Speculation（LinearSpec）：Diffusion 雙向起草 → AR 驗證，加速 4–6×

規格細節

指標	數值
準確率 vs Qwen3 8B	+1.2%
Diffusion TPF 提升	自回歸的 2.6×
LinearSpec 加速	6×（精度相近）
QuadraticSpec 加速	6.4×
實際吞吐量（B200）	~865 tok/s

影響範圍

Diffusion LM 的核心優勢在於可修改先前生成的 token，這是自回歸模型在架構上做不到的。靈活的推論預算（減少精煉步數即可降低計算量）也使其更易於根據場景調整延遲與品質的取捨。部署框架為 SGLang（已在主分支支援），模型與訓練程式碼均已公開。

原始來源：Hugging Face Blog、arXiv:2512.14067

IBM Open Agent Leaderboard：第一個把代理架構與模型分開計算的評測平台

Hugging Face / IBM Research · 2026-05-18

IBM Research 發布了 Open Agent Leaderboard，一個跨六個基準測試評估完整代理系統（而非僅評模型）的統一評測平台，並在 ICLR 2026 Workshop 上發表對應論文（arXiv:2602.22953）。與現有排行榜的關鍵差異在於：同一模型配不同代理框架會得到不同分數，且每次評測都記錄「每任務成本」與失敗模式。

評測範圍

平台涵蓋六個基準：

SWE-Bench Verified：修復真實程式碼庫中的 bug
BrowseComp+：跨網路研究複雜問題
AppWorld：跨數百個 App 完成個人任務
tau2-Bench Airline & Retail：遵循公司政策的客服場景
tau2-Bench Telecom：技術支援場景

核心發現

代理架構的影響已可量測但仍次於模型選擇：三個配置使用相同模型卻得到不同分數與成本，差異來自代理實作本身。Tool shortlisting（聚焦於相關工具）在每個被測模型上都改善了效能，並將部分失敗配置轉為可行。失敗任務的平均成本比成功任務高 20–54%，這是現有排行榜通常不揭露的資訊。

開放權重模型（DeepSeek V3.2、Kimi K2.5）在平均分上落後前沿閉源模型 18–29 個百分點，但在特定基準與代理組合上有競爭力。

影響範圍

開放 Agent Leaderboard 連同 Exgentic 框架（GitHub）一起發布，任何研究者都可以提交新的代理、基準或模型配置。對於正在選型 AI 代理框架的工程師，這個平台提供了比單純模型評分更具參考價值的系統層面數據——包括成本效益比、失敗行為分析，以及代理架構選擇對特定領域的影響。

原始來源：IBM Research / Hugging Face、arXiv:2602.22953

LLM 推論批次非同步化：解鎖 Continuous Batching 的隱藏瓶頸

Hugging Face Blog · 2026-05-14

Hugging Face 發表技術部落格，詳解 Continuous Batching 中的非同步化優化策略，目標是解決現有 LLM 推論引擎在高並發場景下批次效率下降的問題。Continuous Batching 讓推論引擎在不等待整批請求完成的情況下動態插入新請求，但實作細節上的同步障礙導致 GPU 使用率無法充分發揮。

核心改動

Continuous Batching 的基本問題是 Token 生成的不等長性：不同請求的生成長度差異懸殊，短請求很快完成後 GPU slots 空出，但下一批請求的 KV cache 分配、調度計算等準備工作仍在 CPU 上同步執行，造成 GPU 等待。批次大小越大，這個調度延遲佔比越不可忽視。

文章探討的非同步化方案將調度工作（token 採樣、下一批次組成、KV cache 管理）移到獨立執行緒，與 GPU 的 forward pass 計算重疊。關鍵挑戰在於保持輸出確定性：非同步採樣在多 GPU 或多節點環境下必須確保所有 worker 使用相同的隨機種子與採樣決策，否則會產生不一致的 KV cache 狀態。

影響範圍

這項優化對高並發推論場景最為顯著，特別是部署開放模型（如 Llama、Mistral 系列）的推論服務。在 GPU 利用率已趨近上限的場景，非同步調度可以進一步榨取剩餘效能，而不需要增加硬體。相關技術已整合進 Hugging Face TGI（Text Generation Inference）的最新版本。

原始來源：Hugging Face Blog

End of article

NVIDIA Nemotron-Labs Diffusion LM：並行生成加速 4× 的語言模型架構

架構與訓練

規格細節

影響範圍

IBM Open Agent Leaderboard：第一個把代理架構與模型分開計算的評測平台

評測範圍

核心發現

影響範圍

LLM 推論批次非同步化：解鎖 Continuous Batching 的隱藏瓶頸

核心改動

影響範圍

More on this topic