DeepSeek-V4:百萬 Token 上下文、CSA/HCA 混合注意力架構、KV 快取縮減至 V3.2 的 7%
Hugging Face Blog · 2026-04-24
DeepSeek 推出 V4 系列,以激進的 KV 快取壓縮架構實現百萬 token 長上下文推論,同時在代理任務基準上與 GPT-5.4、Gemini-3.1-Pro 並列前段。
混合注意力架構
V4 引入兩種互補的注意力壓縮機制:
- Compressed Sparse Attention(CSA):以 softmax 門控的池化對 KV 條目進行 4× 壓縮,搭配 FP4 的 lightning indexer 選取每個 query 最相關的 top-k 壓縮區塊。
- Heavily Compressed Attention(HCA):對 KV 條目進行 128× 壓縮,以全密集注意力計算壓縮後的區塊。
在 V4-Pro(61 層)中,前 2 層使用 HCA,第 2 至 60 層交替使用 CSA 與 HCA,最後的 MTP 區塊採用滑動視窗注意力。KV 儲存精度為 FP8,RoPE 維度保留 BF16,lightning indexer 使用 FP4。
模型規格
| 型號 | 總參數 | 啟用參數 |
|---|---|---|
| DeepSeek-V4-Pro | 1.6T | 49B |
| DeepSeek-V4-Flash | 284B | 13B |
V4-Pro 的 KV 快取僅為 V3.2 的 10%;V4-Flash 更低至 7%,相對於標準分組查詢注意力(8 head,bfloat16)約為 2%。推論 FLOPs 方面,V4-Pro 為 V3.2 的 27%,V4-Flash 為 10%。Feed-forward 層採用 DeepSeekMoE 架構,並引入流形約束超連接(mHC)取代標準殘差連接。
長上下文設計
上下文視窗設定為 1M token。在 MRCR 8-needle 長上下文檢索基準中,V4-Pro 在 256K token 內準確率維持 0.82 以上;1M token 時降至 0.59。
代理基準表現(V4-Pro-Max)
- SWE Verified:80.6(Claude Opus-4.6:80.8,Gemini-3.1-Pro:80.6)
- Terminal Bench 2.0:67.9(GPT-5.4:75.1)
- MCPAtlas Public:73.6(Claude Opus-4.6-Max:73.8)
- Toolathlon:51.8(K2.6:50.0)
代理訓練基礎設施
RL 訓練使用 DeepSeek Elastic Compute(DSec)沙盒平台,支援函式呼叫、容器、microVM(Firecracker)與全 VM(QEMU),搭配 3FS 分層儲存加快映像載入,並設計了搶佔安全的軌跡重播機制,支援數十萬個並發沙盒。工具呼叫採用 XML 格式搭配 |DSML| 特殊 token;多輪對話中推論軌跡在工具呼叫輪次間保持連貫(Interleaved Thinking)。
NVIDIA Nemotron 3 Nano Omni 30B:Mamba-MoE-Attention 混合骨幹、文件音訊影片長上下文多模態推論
NVIDIA / Hugging Face · 2026-04-28
NVIDIA 釋出 Nemotron 3 Nano Omni(arXiv:2604.24954),一個以 Mamba-Transformer-MoE 混合骨幹為基礎、原生整合視覺、音訊、影片的多模態模型,設計目標為長達 100 頁文件與 5 小時音訊的推論。
骨幹架構
語言骨幹 Nemotron 3 Nano 30B-A3B(總參數 33B,啟用 3B)採用以下層次混合:
- 23 層 Mamba 選擇性狀態空間層(高效長上下文,線性複雜度)
- 23 層 MoE 層,每層 128 個 expert,top-6 routing,含 shared expert for conditional capacity
- 6 層分組查詢注意力層(全局交互)
視覺編碼器為 C-RADIOv4-H;音訊編碼器為 Parakeet-TDT-0.6B-v2。各模態經輕量 2 層 MLP 投影後與語言 token 交織輸入骨幹。
視覺處理
動態解析度設計支援 1,024 至 13,312 視覺 patch(等效 512×512 至 1,840×1,840 的方形影像,保留原始長寬比)。影片使用 Conv3D 時序壓縮(融合相鄰影格對,token 數量減半),並配備 Efficient Video Sampling(EVS),在推論時動態剪除靜態影格的冗餘 token。
音訊處理
原生支援 16 kHz 取樣率,訓練最長 1,200 秒(20 分鐘);推論時上下文可延伸至 5 小時以上,適合長型音頻與多說話者場景。
效能指標
- OCRBenchV2-En:65.8;MMLongBench-Doc:57.5(文件理解)
- Video-MME:72.2;WorldSense(影片+音訊):55.4;DailyOmni:74.1
- VoiceBench:89.4;HF Open ASR WER:5.95
- 多文件場景系統效率 7.4×、影片場景 9.2×
訓練基礎設施
SFT 訓練使用 H100 叢集,RL 使用 B200/H100,規模為 32 至 128 節點,採用 Megatron-LM 框架搭配張量並行、專家並行與序列並行。合成資料管線以 NeMo Data Designer 從 PDF 生成約 1,140 萬問答對(約 450 億 token),對 MMLongBench-Doc 帶來 2.19× 提升。模型以 BF16、FP8、NVFP4 三種精度釋出,NVFP4 版本有效大小降至 18B 等效。
原始來源:NVIDIA on Hugging Face — Nemotron 3 Nano Omni、arXiv:2604.24954
AutoSP:編譯器自動化序列並行,解鎖超長上下文 LLM 訓練、降低 38% 重計算開銷
arXiv:2604.27089 · 2026-04-30
訓練超長上下文 LLM 的瓶頸之一是記憶體壓力——單機無法容納百萬 token 的 KV 快取與啟動值。序列並行(Sequence Parallelism,SP)將序列維度分散至多個設備,但手動設定通信群組與啟動檢查點複雜度高。AutoSP 以編譯器自動化這個流程。
系統設計
AutoSP 以計算圖為輸入,分析 tensor 的序列維度依賴關係,自動插入 all-gather/reduce-scatter 通信算子,並決定哪些 tensor 需啟動重計算(activation recomputation)以換取記憶體。優化目標是在給定設備記憶體限制下最大化訓練吞吐量。
與現有方法的差異
Megatron-LM 的 SP 實作需要手動標注 attention 邊界;Ring Attention 假設序列以均勻方式切分,且通信與計算的重疊依賴特定硬體拓撲。AutoSP 的編譯器方法可靜態分析任意注意力模式(包含 Flash Attention、Linear Attention 變體),並在多機多節點情境下自動選取最佳切分方式。
在 128K 與 1M token 長度的訓練實驗中,AutoSP 相比手動 SP 實作可減少最多 38% 的重計算開銷,同時不降低最終模型品質。可移植至 PyTorch FX Graph 表示,無需修改模型程式碼。