AI 前沿 2026 年 5 月 25 日

2026-05-25 — NVIDIA Nemotron Diffusion LM 4× 加速、IBM Open Agent Leaderboard、Continuous Batching 非同步優化

primary=https://huggingface.co/blog/nvidia/nemotron-labs-diffusion primary=https://arxiv.org/abs/2512.14067 primary=https://huggingface.co/blog/ibm-research/open-agent-leaderboard primary=https://arxiv.org/abs/2602.22953 primary=https://huggingface.co/blog/continuous_async

NVIDIA Nemotron-Labs Diffusion LM:並行生成加速 4× 的語言模型架構

NVIDIA / Hugging Face Blog · 2026-05-23

NVIDIA 發布了 Nemotron-Labs Diffusion Language Model 系列,包含 3B、8B、14B 文字模型與一個 8B 視覺語言模型(VLM)。與傳統自回歸模型不同,Diffusion LM 以並行方式生成 32-token 區塊,再迭代精煉,在 B200 GPU 上達到約 865 tok/s,約為同等自回歸模型的 4×。模型採用商業友好的 NVIDIA Nemotron Open Model License 授權。

架構與訓練

Nemotron-Labs Diffusion 系列基於 Efficient-DLM 框架(arXiv:2512.14067,核心創新在於將擴散能力注入現有自回歸模型:透過聯合 AR 與 Diffusion 訓練目標、Block-wise Attention 機制(保留 KV-cache 相容性),以及在預訓練 AR 模型上繼續訓練來實現轉換,無需從頭訓練。預訓練使用 1.3T tokens,監督式微調使用 45B tokens。

模型提供三種推論模式:

  • Autoregressive Mode:標準左到右 LLM,與現有工作流完全相容
  • Diffusion Mode(FastDiffuser):以信心閾值(confidence thresholding)迭代生成 32-token 區塊
  • Self-Speculation(LinearSpec):Diffusion 雙向起草 → AR 驗證,加速 4–6×

規格細節

指標數值
準確率 vs Qwen3 8B+1.2%
Diffusion TPF 提升自回歸的 2.6×
LinearSpec 加速6×(精度相近)
QuadraticSpec 加速6.4×
實際吞吐量(B200)~865 tok/s

影響範圍

Diffusion LM 的核心優勢在於可修改先前生成的 token,這是自回歸模型在架構上做不到的。靈活的推論預算(減少精煉步數即可降低計算量)也使其更易於根據場景調整延遲與品質的取捨。部署框架為 SGLang(已在主分支支援),模型與訓練程式碼均已公開。

原始來源:Hugging Face BlogarXiv:2512.14067


IBM Open Agent Leaderboard:第一個把代理架構與模型分開計算的評測平台

Hugging Face / IBM Research · 2026-05-18

IBM Research 發布了 Open Agent Leaderboard,一個跨六個基準測試評估完整代理系統(而非僅評模型)的統一評測平台,並在 ICLR 2026 Workshop 上發表對應論文(arXiv:2602.22953)。與現有排行榜的關鍵差異在於:同一模型配不同代理框架會得到不同分數,且每次評測都記錄「每任務成本」與失敗模式。

評測範圍

平台涵蓋六個基準:

  • SWE-Bench Verified:修復真實程式碼庫中的 bug
  • BrowseComp+:跨網路研究複雜問題
  • AppWorld:跨數百個 App 完成個人任務
  • tau2-Bench Airline & Retail:遵循公司政策的客服場景
  • tau2-Bench Telecom:技術支援場景

核心發現

代理架構的影響已可量測但仍次於模型選擇:三個配置使用相同模型卻得到不同分數與成本,差異來自代理實作本身。Tool shortlisting(聚焦於相關工具)在每個被測模型上都改善了效能,並將部分失敗配置轉為可行。失敗任務的平均成本比成功任務高 20–54%,這是現有排行榜通常不揭露的資訊。

開放權重模型(DeepSeek V3.2、Kimi K2.5)在平均分上落後前沿閉源模型 18–29 個百分點,但在特定基準與代理組合上有競爭力。

影響範圍

開放 Agent Leaderboard 連同 Exgentic 框架GitHub)一起發布,任何研究者都可以提交新的代理、基準或模型配置。對於正在選型 AI 代理框架的工程師,這個平台提供了比單純模型評分更具參考價值的系統層面數據——包括成本效益比、失敗行為分析,以及代理架構選擇對特定領域的影響。

原始來源:IBM Research / Hugging FacearXiv:2602.22953


LLM 推論批次非同步化:解鎖 Continuous Batching 的隱藏瓶頸

Hugging Face Blog · 2026-05-14

Hugging Face 發表技術部落格,詳解 Continuous Batching 中的非同步化優化策略,目標是解決現有 LLM 推論引擎在高並發場景下批次效率下降的問題。Continuous Batching 讓推論引擎在不等待整批請求完成的情況下動態插入新請求,但實作細節上的同步障礙導致 GPU 使用率無法充分發揮。

核心改動

Continuous Batching 的基本問題是 Token 生成的不等長性:不同請求的生成長度差異懸殊,短請求很快完成後 GPU slots 空出,但下一批請求的 KV cache 分配、調度計算等準備工作仍在 CPU 上同步執行,造成 GPU 等待。批次大小越大,這個調度延遲佔比越不可忽視。

文章探討的非同步化方案將調度工作(token 採樣、下一批次組成、KV cache 管理)移到獨立執行緒,與 GPU 的 forward pass 計算重疊。關鍵挑戰在於保持輸出確定性:非同步採樣在多 GPU 或多節點環境下必須確保所有 worker 使用相同的隨機種子與採樣決策,否則會產生不一致的 KV cache 狀態。

影響範圍

這項優化對高並發推論場景最為顯著,特別是部署開放模型(如 Llama、Mistral 系列)的推論服務。在 GPU 利用率已趨近上限的場景,非同步調度可以進一步榨取剩餘效能,而不需要增加硬體。相關技術已整合進 Hugging Face TGI(Text Generation Inference)的最新版本。

原始來源:Hugging Face Blog


End of article
0
Would love your thoughts, please comment.x
()
x