NVIDIA Nemotron-Labs Diffusion LM:並行生成加速 4× 的語言模型架構
NVIDIA / Hugging Face Blog · 2026-05-23
NVIDIA 發布了 Nemotron-Labs Diffusion Language Model 系列,包含 3B、8B、14B 文字模型與一個 8B 視覺語言模型(VLM)。與傳統自回歸模型不同,Diffusion LM 以並行方式生成 32-token 區塊,再迭代精煉,在 B200 GPU 上達到約 865 tok/s,約為同等自回歸模型的 4×。模型採用商業友好的 NVIDIA Nemotron Open Model License 授權。
架構與訓練
Nemotron-Labs Diffusion 系列基於 Efficient-DLM 框架(arXiv:2512.14067),核心創新在於將擴散能力注入現有自回歸模型:透過聯合 AR 與 Diffusion 訓練目標、Block-wise Attention 機制(保留 KV-cache 相容性),以及在預訓練 AR 模型上繼續訓練來實現轉換,無需從頭訓練。預訓練使用 1.3T tokens,監督式微調使用 45B tokens。
模型提供三種推論模式:
- Autoregressive Mode:標準左到右 LLM,與現有工作流完全相容
- Diffusion Mode(FastDiffuser):以信心閾值(confidence thresholding)迭代生成 32-token 區塊
- Self-Speculation(LinearSpec):Diffusion 雙向起草 → AR 驗證,加速 4–6×
規格細節
| 指標 | 數值 |
|---|---|
| 準確率 vs Qwen3 8B | +1.2% |
| Diffusion TPF 提升 | 自回歸的 2.6× |
| LinearSpec 加速 | 6×(精度相近) |
| QuadraticSpec 加速 | 6.4× |
| 實際吞吐量(B200) | ~865 tok/s |
影響範圍
Diffusion LM 的核心優勢在於可修改先前生成的 token,這是自回歸模型在架構上做不到的。靈活的推論預算(減少精煉步數即可降低計算量)也使其更易於根據場景調整延遲與品質的取捨。部署框架為 SGLang(已在主分支支援),模型與訓練程式碼均已公開。
IBM Open Agent Leaderboard:第一個把代理架構與模型分開計算的評測平台
Hugging Face / IBM Research · 2026-05-18
IBM Research 發布了 Open Agent Leaderboard,一個跨六個基準測試評估完整代理系統(而非僅評模型)的統一評測平台,並在 ICLR 2026 Workshop 上發表對應論文(arXiv:2602.22953)。與現有排行榜的關鍵差異在於:同一模型配不同代理框架會得到不同分數,且每次評測都記錄「每任務成本」與失敗模式。
評測範圍
平台涵蓋六個基準:
- SWE-Bench Verified:修復真實程式碼庫中的 bug
- BrowseComp+:跨網路研究複雜問題
- AppWorld:跨數百個 App 完成個人任務
- tau2-Bench Airline & Retail:遵循公司政策的客服場景
- tau2-Bench Telecom:技術支援場景
核心發現
代理架構的影響已可量測但仍次於模型選擇:三個配置使用相同模型卻得到不同分數與成本,差異來自代理實作本身。Tool shortlisting(聚焦於相關工具)在每個被測模型上都改善了效能,並將部分失敗配置轉為可行。失敗任務的平均成本比成功任務高 20–54%,這是現有排行榜通常不揭露的資訊。
開放權重模型(DeepSeek V3.2、Kimi K2.5)在平均分上落後前沿閉源模型 18–29 個百分點,但在特定基準與代理組合上有競爭力。
影響範圍
開放 Agent Leaderboard 連同 Exgentic 框架(GitHub)一起發布,任何研究者都可以提交新的代理、基準或模型配置。對於正在選型 AI 代理框架的工程師,這個平台提供了比單純模型評分更具參考價值的系統層面數據——包括成本效益比、失敗行為分析,以及代理架構選擇對特定領域的影響。
LLM 推論批次非同步化:解鎖 Continuous Batching 的隱藏瓶頸
Hugging Face Blog · 2026-05-14
Hugging Face 發表技術部落格,詳解 Continuous Batching 中的非同步化優化策略,目標是解決現有 LLM 推論引擎在高並發場景下批次效率下降的問題。Continuous Batching 讓推論引擎在不等待整批請求完成的情況下動態插入新請求,但實作細節上的同步障礙導致 GPU 使用率無法充分發揮。
核心改動
Continuous Batching 的基本問題是 Token 生成的不等長性:不同請求的生成長度差異懸殊,短請求很快完成後 GPU slots 空出,但下一批請求的 KV cache 分配、調度計算等準備工作仍在 CPU 上同步執行,造成 GPU 等待。批次大小越大,這個調度延遲佔比越不可忽視。
文章探討的非同步化方案將調度工作(token 採樣、下一批次組成、KV cache 管理)移到獨立執行緒,與 GPU 的 forward pass 計算重疊。關鍵挑戰在於保持輸出確定性:非同步採樣在多 GPU 或多節點環境下必須確保所有 worker 使用相同的隨機種子與採樣決策,否則會產生不一致的 KV cache 狀態。
影響範圍
這項優化對高並發推論場景最為顯著,特別是部署開放模型(如 Llama、Mistral 系列)的推論服務。在 GPU 利用率已趨近上限的場景,非同步調度可以進一步榨取剩餘效能,而不需要增加硬體。相關技術已整合進 Hugging Face TGI(Text Generation Inference)的最新版本。
原始來源:Hugging Face Blog