AI 前沿 2026 年 4 月 26 日

2026-04-26 — DeepSeek-V4 百萬 Token 混合注意力、TRACES 推理提前終止、Gemini 3.1 Flash TTS

DeepSeek-V4:百萬 Token 上下文視窗與混合稀…

DeepSeek-V4:百萬 Token 上下文視窗與混合稀疏注意力機制

DeepSeek / Hugging Face · 2026-04-24

DeepSeek-V4 發布兩個 MoE 變體:V4-Pro(1.6T 總參數、49B 活躍)與 V4-Flash(284B 總參數、13B 活躍)。上下文視窗擴展至 100 萬 token,在 MRCR 8-needle 1M token 檢索任務上維持 0.59 的準確率,256K token 內維持 0.82 以上。

混合注意力機制:CSA 與 HCA

V4 的核心架構創新是兩種壓縮注意力層的交替疊加,以解決 1M token KV cache 的記憶體問題:

  • Compressed Sparse Attention(CSA):4× 壓縮比,以 softmax-gated pooling 生成壓縮 block;Lightning indexer(FP4 精度、ReLU 評分)選出 top-k 壓縮 block;滑動視窗分支處理最近未壓縮的 token。
  • Heavily Compressed Attention(HCA):128× 壓縮比,對壓縮 block 進行稠密注意力計算;同樣保留滑動視窗分支。

61 層中,第 0–1 層使用 HCA,第 2–60 層交替 CSA/HCA,MTP block 僅用滑動視窗。相較標準 GQA 8-head(bfloat16),V4-Pro KV cache 僅佔約 2%,單 token 推論 FLOPs 降至 27%;V4-Flash 則降至 10%。

Agent 訓練的工具呼叫設計

V4 在跨工具呼叫邊界時保留推理鏈(thinking trace):當對話中有工具使用時,<think> block 跨越 user message 邊界累積;無工具的對話則在每輪結束後清除以節省上下文。工具呼叫格式改用 XML 加 |DSML| 特殊 token,以字串/結構化參數區分避免 JSON 跳脫失敗。

RL 訓練基礎設施:DSec

DeepSeek Elastic Compute(DSec)提供四種執行基板:函式呼叫、容器、microVM(Firecracker)、完整 VM(QEMU),以統一 API 支援不同安全隔離需求。3FS 分層儲存加速映像載入;preemption-safe trajectory replay 確保 RL 訓練中斷後可復現。

基準測試結果

V4-Pro-Max 在 Terminal Bench 2.0 得 67.9(GPT-5.4-xHigh: 75.1)、SWE Verified 得 80.6(Opus-4.6-Max: 80.8)、MCPAtlas Public 得 73.6(第二名)。重量精度:MoE expert 使用 FP4,其餘使用 FP8。

原始來源:DeepSeek-V4 — Hugging Face Blog


TRACES:為推理模型標記思考步驟以實現自適應提前終止

arXiv:2604.21057 · 2026-04-25

大型推理模型(LRM)在生成完整推理鏈時往往在達到正確答案後繼續生成冗餘 token。TRACES(Tagging of the Reasoning steps enabling Adaptive Cost-Efficient early-Stopping)是一個輕量框架,在推理期間即時標記步驟類型,並在識別到「已抵達正確答案」的行為特徵後提前終止生成。

核心機制

TRACES 的關鍵觀察是:LRM 在達到正確答案後,其後續推理步驟的特徵分布會發生可辨識的偏移。框架監控每個推理步驟被分配到的類別標籤,並以這些標籤作為可解釋的停止條件,無需修改模型權重,屬於推理期介入。

效率提升

在五個評估資料集(MATH500、GSM8K、AIME 數學推理;MMLU、GPQA 知識推理)上,TRACES 達到 20–50% 的 token 數量削減,同時維持與標準全序列生成相當的準確率。

工程意義

在推理成本已成為大規模部署主要瓶頸的背景下,無需重新訓練的推理期干預方案具有直接的部署價值。20–50% 的 token 削減對應近似等比例的延遲與成本降低,尤其在 AIME 等需要長推理鏈的任務上效益顯著。

原始來源:arXiv:2604.21057 — TRACES


Gemini 3.1 Flash TTS:下一代表達性 AI 語音合成

Google DeepMind · 2026-04-24

Google DeepMind 發布 Gemini 3.1 Flash TTS,定位為 Gemini 系列中針對語音合成任務的最佳化模型,強調在低延遲下保留情感與韻律表達能力。

架構特點

與傳統的 acoustic model + vocoder 兩階段 TTS 架構不同,Gemini 3.1 Flash TTS 繼承 Gemini 多模態架構,直接從文字端到端生成音訊波形。這允許模型利用文字語義上下文調整語調、停頓和音量,而非僅依賴 SSML 標記或獨立韻律預測模組。

表達性能力

模型支援多種語言與腔調,並能根據輸入文字的情感内容自動調整語音的音調變化。Flash 變體在保持 Gemini Pro 等級表達質量的同時,大幅降低延遲,目標是滿足即時對話 AI 應用(如語音助理、電話客服自動化)的延遲要求。

API 整合

Gemini 3.1 Flash TTS 透過 Google AI Studio 與 Vertex AI 的 Gemini API 提供存取,支援與現有 Gemini 多模態對話流程的整合,可在同一 API 呼叫中混合文字輸入與語音輸出。

原始來源:Gemini 3.1 Flash TTS — Google Blog


Gemini Robotics-ER 1.6:增強具身推理能力的機器人視覺語言行動模型

Google DeepMind · 2026-04-24

DeepMind 發布 Gemini Robotics-ER 1.6,在前一版的基礎上強化「具身推理」(Embodied Reasoning)能力,目標是讓機器人在執行物理任務時能更可靠地理解空間關係、物體屬性與操作順序。

具身推理的技術定義

具身推理(ER)指模型將視覺感知與物理動作計畫整合在同一推理過程中的能力。1.6 版本透過擴大多模態訓練資料中的機器人操作示範(包含深度圖、點雲和手部位姿資料),改善了模型在預測抓取點、規劃多步驟操作路徑時的空間準確性。

評估結果

在 RT-2 基準上,1.6 版本相較前一版在語言條件化操作任務(language-conditioned manipulation)的成功率有提升,尤其在需要推理物體間相對位置的任務(如「將紅色積木放到藍色積木左側」)上改善顯著。

部署整合

模型透過 Google DeepMind 的 robotics API 提供,支援與 ROS 2 生態系統和常見機器人硬體平台(Boston Dynamics Spot、Universal Robots UR 系列)的整合路徑。

原始來源:Gemini Robotics-ER 1.6 — Google DeepMind Blog


End of article
0
Would love your thoughts, please comment.x
()
x