2026-05-02 — DeepSeek-V4 百萬 Token、NVIDIA Nemotron 3 Nano Omni、AutoSP 序列並行

DeepSeek-V4：百萬 Token 上下文、CSA/HCA 混合注意力架構、KV 快取縮減至 V3.2 的 7%

Hugging Face Blog · 2026-04-24

DeepSeek 推出 V4 系列，以激進的 KV 快取壓縮架構實現百萬 token 長上下文推論，同時在代理任務基準上與 GPT-5.4、Gemini-3.1-Pro 並列前段。

混合注意力架構

V4 引入兩種互補的注意力壓縮機制：

Compressed Sparse Attention（CSA）：以 softmax 門控的池化對 KV 條目進行 4× 壓縮，搭配 FP4 的 lightning indexer 選取每個 query 最相關的 top-k 壓縮區塊。
Heavily Compressed Attention（HCA）：對 KV 條目進行 128× 壓縮，以全密集注意力計算壓縮後的區塊。

在 V4-Pro（61 層）中，前 2 層使用 HCA，第 2 至 60 層交替使用 CSA 與 HCA，最後的 MTP 區塊採用滑動視窗注意力。KV 儲存精度為 FP8，RoPE 維度保留 BF16，lightning indexer 使用 FP4。

模型規格

型號	總參數	啟用參數
DeepSeek-V4-Pro	1.6T	49B
DeepSeek-V4-Flash	284B	13B

V4-Pro 的 KV 快取僅為 V3.2 的 10%；V4-Flash 更低至 7%，相對於標準分組查詢注意力（8 head，bfloat16）約為 2%。推論 FLOPs 方面，V4-Pro 為 V3.2 的 27%，V4-Flash 為 10%。Feed-forward 層採用 DeepSeekMoE 架構，並引入流形約束超連接（mHC）取代標準殘差連接。

長上下文設計

上下文視窗設定為 1M token。在 MRCR 8-needle 長上下文檢索基準中，V4-Pro 在 256K token 內準確率維持 0.82 以上；1M token 時降至 0.59。

代理基準表現（V4-Pro-Max）

SWE Verified：80.6（Claude Opus-4.6：80.8，Gemini-3.1-Pro：80.6）
Terminal Bench 2.0：67.9（GPT-5.4：75.1）
MCPAtlas Public：73.6（Claude Opus-4.6-Max：73.8）
Toolathlon：51.8（K2.6：50.0）

代理訓練基礎設施

RL 訓練使用 DeepSeek Elastic Compute（DSec）沙盒平台，支援函式呼叫、容器、microVM（Firecracker）與全 VM（QEMU），搭配 3FS 分層儲存加快映像載入，並設計了搶佔安全的軌跡重播機制，支援數十萬個並發沙盒。工具呼叫採用 XML 格式搭配 |DSML| 特殊 token；多輪對話中推論軌跡在工具呼叫輪次間保持連貫（Interleaved Thinking）。

原始來源：Hugging Face Blog — DeepSeek-V4

NVIDIA Nemotron 3 Nano Omni 30B：Mamba-MoE-Attention 混合骨幹、文件音訊影片長上下文多模態推論

NVIDIA / Hugging Face · 2026-04-28

NVIDIA 釋出 Nemotron 3 Nano Omni（arXiv:2604.24954），一個以 Mamba-Transformer-MoE 混合骨幹為基礎、原生整合視覺、音訊、影片的多模態模型，設計目標為長達 100 頁文件與 5 小時音訊的推論。

骨幹架構

語言骨幹 Nemotron 3 Nano 30B-A3B（總參數 33B，啟用 3B）採用以下層次混合：

23 層 Mamba 選擇性狀態空間層（高效長上下文，線性複雜度）
23 層 MoE 層，每層 128 個 expert，top-6 routing，含 shared expert for conditional capacity
6 層分組查詢注意力層（全局交互）

視覺編碼器為 C-RADIOv4-H；音訊編碼器為 Parakeet-TDT-0.6B-v2。各模態經輕量 2 層 MLP 投影後與語言 token 交織輸入骨幹。

視覺處理

動態解析度設計支援 1,024 至 13,312 視覺 patch（等效 512×512 至 1,840×1,840 的方形影像，保留原始長寬比）。影片使用 Conv3D 時序壓縮（融合相鄰影格對，token 數量減半），並配備 Efficient Video Sampling（EVS），在推論時動態剪除靜態影格的冗餘 token。

音訊處理

原生支援 16 kHz 取樣率，訓練最長 1,200 秒（20 分鐘）；推論時上下文可延伸至 5 小時以上，適合長型音頻與多說話者場景。

效能指標

OCRBenchV2-En：65.8；MMLongBench-Doc：57.5（文件理解）
Video-MME：72.2；WorldSense（影片+音訊）：55.4；DailyOmni：74.1
VoiceBench：89.4；HF Open ASR WER：5.95
多文件場景系統效率 7.4×、影片場景 9.2×

訓練基礎設施

SFT 訓練使用 H100 叢集，RL 使用 B200/H100，規模為 32 至 128 節點，採用 Megatron-LM 框架搭配張量並行、專家並行與序列並行。合成資料管線以 NeMo Data Designer 從 PDF 生成約 1,140 萬問答對（約 450 億 token），對 MMLongBench-Doc 帶來 2.19× 提升。模型以 BF16、FP8、NVFP4 三種精度釋出，NVFP4 版本有效大小降至 18B 等效。

原始來源：NVIDIA on Hugging Face — Nemotron 3 Nano Omni、arXiv:2604.24954

AutoSP：編譯器自動化序列並行，解鎖超長上下文 LLM 訓練、降低 38% 重計算開銷

arXiv:2604.27089 · 2026-04-30

訓練超長上下文 LLM 的瓶頸之一是記憶體壓力——單機無法容納百萬 token 的 KV 快取與啟動值。序列並行（Sequence Parallelism，SP）將序列維度分散至多個設備，但手動設定通信群組與啟動檢查點複雜度高。AutoSP 以編譯器自動化這個流程。

系統設計

AutoSP 以計算圖為輸入，分析 tensor 的序列維度依賴關係，自動插入 all-gather／reduce-scatter 通信算子，並決定哪些 tensor 需啟動重計算（activation recomputation）以換取記憶體。優化目標是在給定設備記憶體限制下最大化訓練吞吐量。

與現有方法的差異

Megatron-LM 的 SP 實作需要手動標注 attention 邊界；Ring Attention 假設序列以均勻方式切分，且通信與計算的重疊依賴特定硬體拓撲。AutoSP 的編譯器方法可靜態分析任意注意力模式（包含 Flash Attention、Linear Attention 變體），並在多機多節點情境下自動選取最佳切分方式。

在 128K 與 1M token 長度的訓練實驗中，AutoSP 相比手動 SP 實作可減少最多 38% 的重計算開銷，同時不降低最終模型品質。可移植至 PyTorch FX Graph 表示，無需修改模型程式碼。

原始來源：arXiv:2604.27089 — AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism

End of article