2026-04-26 — DeepSeek-V4 百萬 Token 混合注意力、TRACES 推理提前終止、Gemini 3.1 Flash TTS

DeepSeek-V4：百萬 Token 上下文視窗與混合稀疏注意力機制

DeepSeek / Hugging Face · 2026-04-24

DeepSeek-V4 發布兩個 MoE 變體：V4-Pro（1.6T 總參數、49B 活躍）與 V4-Flash（284B 總參數、13B 活躍）。上下文視窗擴展至 100 萬 token，在 MRCR 8-needle 1M token 檢索任務上維持 0.59 的準確率，256K token 內維持 0.82 以上。

混合注意力機制：CSA 與 HCA

V4 的核心架構創新是兩種壓縮注意力層的交替疊加，以解決 1M token KV cache 的記憶體問題：

Compressed Sparse Attention（CSA）：4× 壓縮比，以 softmax-gated pooling 生成壓縮 block；Lightning indexer（FP4 精度、ReLU 評分）選出 top-k 壓縮 block；滑動視窗分支處理最近未壓縮的 token。
Heavily Compressed Attention（HCA）：128× 壓縮比，對壓縮 block 進行稠密注意力計算；同樣保留滑動視窗分支。

61 層中，第 0–1 層使用 HCA，第 2–60 層交替 CSA/HCA，MTP block 僅用滑動視窗。相較標準 GQA 8-head（bfloat16），V4-Pro KV cache 僅佔約 2%，單 token 推論 FLOPs 降至 27%；V4-Flash 則降至 10%。

Agent 訓練的工具呼叫設計

V4 在跨工具呼叫邊界時保留推理鏈（thinking trace）：當對話中有工具使用時，<think> block 跨越 user message 邊界累積；無工具的對話則在每輪結束後清除以節省上下文。工具呼叫格式改用 XML 加 |DSML| 特殊 token，以字串/結構化參數區分避免 JSON 跳脫失敗。

RL 訓練基礎設施：DSec

DeepSeek Elastic Compute（DSec）提供四種執行基板：函式呼叫、容器、microVM（Firecracker）、完整 VM（QEMU），以統一 API 支援不同安全隔離需求。3FS 分層儲存加速映像載入；preemption-safe trajectory replay 確保 RL 訓練中斷後可復現。

基準測試結果

V4-Pro-Max 在 Terminal Bench 2.0 得 67.9（GPT-5.4-xHigh: 75.1）、SWE Verified 得 80.6（Opus-4.6-Max: 80.8）、MCPAtlas Public 得 73.6（第二名）。重量精度：MoE expert 使用 FP4，其餘使用 FP8。

原始來源：DeepSeek-V4 — Hugging Face Blog

TRACES：為推理模型標記思考步驟以實現自適應提前終止

arXiv:2604.21057 · 2026-04-25

大型推理模型（LRM）在生成完整推理鏈時往往在達到正確答案後繼續生成冗餘 token。TRACES（Tagging of the Reasoning steps enabling Adaptive Cost-Efficient early-Stopping）是一個輕量框架，在推理期間即時標記步驟類型，並在識別到「已抵達正確答案」的行為特徵後提前終止生成。

核心機制

TRACES 的關鍵觀察是：LRM 在達到正確答案後，其後續推理步驟的特徵分布會發生可辨識的偏移。框架監控每個推理步驟被分配到的類別標籤，並以這些標籤作為可解釋的停止條件，無需修改模型權重，屬於推理期介入。

效率提升

在五個評估資料集（MATH500、GSM8K、AIME 數學推理；MMLU、GPQA 知識推理）上，TRACES 達到 20–50% 的 token 數量削減，同時維持與標準全序列生成相當的準確率。

工程意義

在推理成本已成為大規模部署主要瓶頸的背景下，無需重新訓練的推理期干預方案具有直接的部署價值。20–50% 的 token 削減對應近似等比例的延遲與成本降低，尤其在 AIME 等需要長推理鏈的任務上效益顯著。

原始來源：arXiv:2604.21057 — TRACES

Gemini 3.1 Flash TTS：下一代表達性 AI 語音合成

Google DeepMind · 2026-04-24

Google DeepMind 發布 Gemini 3.1 Flash TTS，定位為 Gemini 系列中針對語音合成任務的最佳化模型，強調在低延遲下保留情感與韻律表達能力。

架構特點

與傳統的 acoustic model + vocoder 兩階段 TTS 架構不同，Gemini 3.1 Flash TTS 繼承 Gemini 多模態架構，直接從文字端到端生成音訊波形。這允許模型利用文字語義上下文調整語調、停頓和音量，而非僅依賴 SSML 標記或獨立韻律預測模組。

表達性能力

模型支援多種語言與腔調，並能根據輸入文字的情感内容自動調整語音的音調變化。Flash 變體在保持 Gemini Pro 等級表達質量的同時，大幅降低延遲，目標是滿足即時對話 AI 應用（如語音助理、電話客服自動化）的延遲要求。

API 整合

Gemini 3.1 Flash TTS 透過 Google AI Studio 與 Vertex AI 的 Gemini API 提供存取，支援與現有 Gemini 多模態對話流程的整合，可在同一 API 呼叫中混合文字輸入與語音輸出。

原始來源：Gemini 3.1 Flash TTS — Google Blog

Gemini Robotics-ER 1.6：增強具身推理能力的機器人視覺語言行動模型

Google DeepMind · 2026-04-24

DeepMind 發布 Gemini Robotics-ER 1.6，在前一版的基礎上強化「具身推理」（Embodied Reasoning）能力，目標是讓機器人在執行物理任務時能更可靠地理解空間關係、物體屬性與操作順序。

具身推理的技術定義

具身推理（ER）指模型將視覺感知與物理動作計畫整合在同一推理過程中的能力。1.6 版本透過擴大多模態訓練資料中的機器人操作示範（包含深度圖、點雲和手部位姿資料），改善了模型在預測抓取點、規劃多步驟操作路徑時的空間準確性。

評估結果

在 RT-2 基準上，1.6 版本相較前一版在語言條件化操作任務（language-conditioned manipulation）的成功率有提升，尤其在需要推理物體間相對位置的任務（如「將紅色積木放到藍色積木左側」）上改善顯著。

部署整合

模型透過 Google DeepMind 的 robotics API 提供，支援與 ROS 2 生態系統和常見機器人硬體平台（Boston Dynamics Spot、Universal Robots UR 系列）的整合路徑。

原始來源：Gemini Robotics-ER 1.6 — Google DeepMind Blog

End of article