AI 前沿 2026 年 5 月 2 日

2026-05-02 — DeepSeek-V4 百萬 Token、NVIDIA Nemotron 3 Nano Omni、AutoSP 序列並行

DeepSeek-V4:百萬 Token 上下文、CSA/H…

DeepSeek-V4:百萬 Token 上下文、CSA/HCA 混合注意力架構、KV 快取縮減至 V3.2 的 7%

Hugging Face Blog · 2026-04-24

DeepSeek 推出 V4 系列,以激進的 KV 快取壓縮架構實現百萬 token 長上下文推論,同時在代理任務基準上與 GPT-5.4、Gemini-3.1-Pro 並列前段。

混合注意力架構

V4 引入兩種互補的注意力壓縮機制:

  • Compressed Sparse Attention(CSA):以 softmax 門控的池化對 KV 條目進行 4× 壓縮,搭配 FP4 的 lightning indexer 選取每個 query 最相關的 top-k 壓縮區塊。
  • Heavily Compressed Attention(HCA):對 KV 條目進行 128× 壓縮,以全密集注意力計算壓縮後的區塊。

在 V4-Pro(61 層)中,前 2 層使用 HCA,第 2 至 60 層交替使用 CSA 與 HCA,最後的 MTP 區塊採用滑動視窗注意力。KV 儲存精度為 FP8,RoPE 維度保留 BF16,lightning indexer 使用 FP4。

模型規格

型號總參數啟用參數
DeepSeek-V4-Pro1.6T49B
DeepSeek-V4-Flash284B13B

V4-Pro 的 KV 快取僅為 V3.2 的 10%;V4-Flash 更低至 7%,相對於標準分組查詢注意力(8 head,bfloat16)約為 2%。推論 FLOPs 方面,V4-Pro 為 V3.2 的 27%,V4-Flash 為 10%。Feed-forward 層採用 DeepSeekMoE 架構,並引入流形約束超連接(mHC)取代標準殘差連接。

長上下文設計

上下文視窗設定為 1M token。在 MRCR 8-needle 長上下文檢索基準中,V4-Pro 在 256K token 內準確率維持 0.82 以上;1M token 時降至 0.59。

代理基準表現(V4-Pro-Max)

  • SWE Verified:80.6(Claude Opus-4.6:80.8,Gemini-3.1-Pro:80.6)
  • Terminal Bench 2.0:67.9(GPT-5.4:75.1)
  • MCPAtlas Public:73.6(Claude Opus-4.6-Max:73.8)
  • Toolathlon:51.8(K2.6:50.0)

代理訓練基礎設施

RL 訓練使用 DeepSeek Elastic Compute(DSec)沙盒平台,支援函式呼叫、容器、microVM(Firecracker)與全 VM(QEMU),搭配 3FS 分層儲存加快映像載入,並設計了搶佔安全的軌跡重播機制,支援數十萬個並發沙盒。工具呼叫採用 XML 格式搭配 |DSML| 特殊 token;多輪對話中推論軌跡在工具呼叫輪次間保持連貫(Interleaved Thinking)。

原始來源:Hugging Face Blog — DeepSeek-V4


NVIDIA Nemotron 3 Nano Omni 30B:Mamba-MoE-Attention 混合骨幹、文件音訊影片長上下文多模態推論

NVIDIA / Hugging Face · 2026-04-28

NVIDIA 釋出 Nemotron 3 Nano Omni(arXiv:2604.24954),一個以 Mamba-Transformer-MoE 混合骨幹為基礎、原生整合視覺、音訊、影片的多模態模型,設計目標為長達 100 頁文件與 5 小時音訊的推論。

骨幹架構

語言骨幹 Nemotron 3 Nano 30B-A3B(總參數 33B,啟用 3B)採用以下層次混合:

  • 23 層 Mamba 選擇性狀態空間層(高效長上下文,線性複雜度)
  • 23 層 MoE 層,每層 128 個 expert,top-6 routing,含 shared expert for conditional capacity
  • 6 層分組查詢注意力層(全局交互)

視覺編碼器為 C-RADIOv4-H;音訊編碼器為 Parakeet-TDT-0.6B-v2。各模態經輕量 2 層 MLP 投影後與語言 token 交織輸入骨幹。

視覺處理

動態解析度設計支援 1,024 至 13,312 視覺 patch(等效 512×512 至 1,840×1,840 的方形影像,保留原始長寬比)。影片使用 Conv3D 時序壓縮(融合相鄰影格對,token 數量減半),並配備 Efficient Video Sampling(EVS),在推論時動態剪除靜態影格的冗餘 token。

音訊處理

原生支援 16 kHz 取樣率,訓練最長 1,200 秒(20 分鐘);推論時上下文可延伸至 5 小時以上,適合長型音頻與多說話者場景。

效能指標

  • OCRBenchV2-En:65.8;MMLongBench-Doc:57.5(文件理解)
  • Video-MME:72.2;WorldSense(影片+音訊):55.4;DailyOmni:74.1
  • VoiceBench:89.4;HF Open ASR WER:5.95
  • 多文件場景系統效率 7.4×、影片場景 9.2×

訓練基礎設施

SFT 訓練使用 H100 叢集,RL 使用 B200/H100,規模為 32 至 128 節點,採用 Megatron-LM 框架搭配張量並行、專家並行與序列並行。合成資料管線以 NeMo Data Designer 從 PDF 生成約 1,140 萬問答對(約 450 億 token),對 MMLongBench-Doc 帶來 2.19× 提升。模型以 BF16、FP8、NVFP4 三種精度釋出,NVFP4 版本有效大小降至 18B 等效。

原始來源:NVIDIA on Hugging Face — Nemotron 3 Nano OmniarXiv:2604.24954


AutoSP:編譯器自動化序列並行,解鎖超長上下文 LLM 訓練、降低 38% 重計算開銷

arXiv:2604.27089 · 2026-04-30

訓練超長上下文 LLM 的瓶頸之一是記憶體壓力——單機無法容納百萬 token 的 KV 快取與啟動值。序列並行(Sequence Parallelism,SP)將序列維度分散至多個設備,但手動設定通信群組與啟動檢查點複雜度高。AutoSP 以編譯器自動化這個流程。

系統設計

AutoSP 以計算圖為輸入,分析 tensor 的序列維度依賴關係,自動插入 all-gatherreduce-scatter 通信算子,並決定哪些 tensor 需啟動重計算(activation recomputation)以換取記憶體。優化目標是在給定設備記憶體限制下最大化訓練吞吐量。

與現有方法的差異

Megatron-LM 的 SP 實作需要手動標注 attention 邊界;Ring Attention 假設序列以均勻方式切分,且通信與計算的重疊依賴特定硬體拓撲。AutoSP 的編譯器方法可靜態分析任意注意力模式(包含 Flash Attention、Linear Attention 變體),並在多機多節點情境下自動選取最佳切分方式。

在 128K 與 1M token 長度的訓練實驗中,AutoSP 相比手動 SP 實作可減少最多 38% 的重計算開銷,同時不降低最終模型品質。可移植至 PyTorch FX Graph 表示,無需修改模型程式碼。

原始來源:arXiv:2604.27089 — AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism


End of article
0
Would love your thoughts, please comment.x
()
x