DeepSeek-V4:百萬 Token 上下文視窗與混合稀疏注意力機制
DeepSeek / Hugging Face · 2026-04-24
DeepSeek-V4 發布兩個 MoE 變體:V4-Pro(1.6T 總參數、49B 活躍)與 V4-Flash(284B 總參數、13B 活躍)。上下文視窗擴展至 100 萬 token,在 MRCR 8-needle 1M token 檢索任務上維持 0.59 的準確率,256K token 內維持 0.82 以上。
混合注意力機制:CSA 與 HCA
V4 的核心架構創新是兩種壓縮注意力層的交替疊加,以解決 1M token KV cache 的記憶體問題:
- Compressed Sparse Attention(CSA):4× 壓縮比,以 softmax-gated pooling 生成壓縮 block;Lightning indexer(FP4 精度、ReLU 評分)選出 top-k 壓縮 block;滑動視窗分支處理最近未壓縮的 token。
- Heavily Compressed Attention(HCA):128× 壓縮比,對壓縮 block 進行稠密注意力計算;同樣保留滑動視窗分支。
61 層中,第 0–1 層使用 HCA,第 2–60 層交替 CSA/HCA,MTP block 僅用滑動視窗。相較標準 GQA 8-head(bfloat16),V4-Pro KV cache 僅佔約 2%,單 token 推論 FLOPs 降至 27%;V4-Flash 則降至 10%。
Agent 訓練的工具呼叫設計
V4 在跨工具呼叫邊界時保留推理鏈(thinking trace):當對話中有工具使用時,<think> block 跨越 user message 邊界累積;無工具的對話則在每輪結束後清除以節省上下文。工具呼叫格式改用 XML 加 |DSML| 特殊 token,以字串/結構化參數區分避免 JSON 跳脫失敗。
RL 訓練基礎設施:DSec
DeepSeek Elastic Compute(DSec)提供四種執行基板:函式呼叫、容器、microVM(Firecracker)、完整 VM(QEMU),以統一 API 支援不同安全隔離需求。3FS 分層儲存加速映像載入;preemption-safe trajectory replay 確保 RL 訓練中斷後可復現。
基準測試結果
V4-Pro-Max 在 Terminal Bench 2.0 得 67.9(GPT-5.4-xHigh: 75.1)、SWE Verified 得 80.6(Opus-4.6-Max: 80.8)、MCPAtlas Public 得 73.6(第二名)。重量精度:MoE expert 使用 FP4,其餘使用 FP8。
TRACES:為推理模型標記思考步驟以實現自適應提前終止
arXiv:2604.21057 · 2026-04-25
大型推理模型(LRM)在生成完整推理鏈時往往在達到正確答案後繼續生成冗餘 token。TRACES(Tagging of the Reasoning steps enabling Adaptive Cost-Efficient early-Stopping)是一個輕量框架,在推理期間即時標記步驟類型,並在識別到「已抵達正確答案」的行為特徵後提前終止生成。
核心機制
TRACES 的關鍵觀察是:LRM 在達到正確答案後,其後續推理步驟的特徵分布會發生可辨識的偏移。框架監控每個推理步驟被分配到的類別標籤,並以這些標籤作為可解釋的停止條件,無需修改模型權重,屬於推理期介入。
效率提升
在五個評估資料集(MATH500、GSM8K、AIME 數學推理;MMLU、GPQA 知識推理)上,TRACES 達到 20–50% 的 token 數量削減,同時維持與標準全序列生成相當的準確率。
工程意義
在推理成本已成為大規模部署主要瓶頸的背景下,無需重新訓練的推理期干預方案具有直接的部署價值。20–50% 的 token 削減對應近似等比例的延遲與成本降低,尤其在 AIME 等需要長推理鏈的任務上效益顯著。
Gemini 3.1 Flash TTS:下一代表達性 AI 語音合成
Google DeepMind · 2026-04-24
Google DeepMind 發布 Gemini 3.1 Flash TTS,定位為 Gemini 系列中針對語音合成任務的最佳化模型,強調在低延遲下保留情感與韻律表達能力。
架構特點
與傳統的 acoustic model + vocoder 兩階段 TTS 架構不同,Gemini 3.1 Flash TTS 繼承 Gemini 多模態架構,直接從文字端到端生成音訊波形。這允許模型利用文字語義上下文調整語調、停頓和音量,而非僅依賴 SSML 標記或獨立韻律預測模組。
表達性能力
模型支援多種語言與腔調,並能根據輸入文字的情感内容自動調整語音的音調變化。Flash 變體在保持 Gemini Pro 等級表達質量的同時,大幅降低延遲,目標是滿足即時對話 AI 應用(如語音助理、電話客服自動化)的延遲要求。
API 整合
Gemini 3.1 Flash TTS 透過 Google AI Studio 與 Vertex AI 的 Gemini API 提供存取,支援與現有 Gemini 多模態對話流程的整合,可在同一 API 呼叫中混合文字輸入與語音輸出。
Gemini Robotics-ER 1.6:增強具身推理能力的機器人視覺語言行動模型
Google DeepMind · 2026-04-24
DeepMind 發布 Gemini Robotics-ER 1.6,在前一版的基礎上強化「具身推理」(Embodied Reasoning)能力,目標是讓機器人在執行物理任務時能更可靠地理解空間關係、物體屬性與操作順序。
具身推理的技術定義
具身推理(ER)指模型將視覺感知與物理動作計畫整合在同一推理過程中的能力。1.6 版本透過擴大多模態訓練資料中的機器人操作示範(包含深度圖、點雲和手部位姿資料),改善了模型在預測抓取點、規劃多步驟操作路徑時的空間準確性。
評估結果
在 RT-2 基準上,1.6 版本相較前一版在語言條件化操作任務(language-conditioned manipulation)的成功率有提升,尤其在需要推理物體間相對位置的任務(如「將紅色積木放到藍色積木左側」)上改善顯著。
部署整合
模型透過 Google DeepMind 的 robotics API 提供,支援與 ROS 2 生態系統和常見機器人硬體平台(Boston Dynamics Spot、Universal Robots UR 系列)的整合路徑。