AI 前沿 2026 年 4 月 25 日

2026-04-25 — DeepSeek-V4 百萬 Token 代理模型、Gemma 4 開源家族、GPT-5.5 API 上線

DeepSeek-V4:以百萬 Token 上下文重新定義開…

DeepSeek-V4:以百萬 Token 上下文重新定義開源代理模型

HuggingFace Blog · 2026-04-24

DeepSeek 於 2026 年 4 月 24 日發布 DeepSeek-V4,分為 V4-Pro(1.6T 總參數、49B 活化)與 V4-Flash(284B 總參數、13B 活化)兩個變體,均採用混合專家(MoE)架構,並共享同一個核心創新:在 1M token 上下文視窗內維持高效推理,同時將 KV Cache 記憶體消耗壓縮至標準 GQA-8 的 2%

混合壓縮注意力機制

V4 設計的核心是兩種互補的注意力變體交替堆疊:

  • CSA(Compressed Sparse Attention):4× KV 壓縮配合稀疏區塊選擇,適合處理中等距離依賴。
  • HCA(Heavily Compressed Attention):128× KV 壓縮配合全連接注意力,負責超長距離模式。

KV 儲存精度分層:RoPE 維度以 BF16 保留精度,多數 KV 項目以 FP8 儲存,快速索引器則以 FP4。在 1M token 長度下,V4-Pro 的單 token 推理 FLOPs 僅為 V3.2 的 27%,V4-Flash 更低至 10%。

代理工作流的三項針對性設計

1. 跨工具呼叫保留推理鏈:在工具調用的對話中,V4 將 <think> 推理塊持續傳遞到後續呼叫之間,確保模型不因 tool response 插入而失去上下文。非工具對話則丟棄推理以節省上下文視窗。

2. 專用工具呼叫 Schema:使用 |DSML| 特殊 token 加上 XML 格式,以 string="true" 屬性區分字串參數與結構化 JSON 參數,顯著降低解析失敗率。

3. DSEc 沙箱基礎設施:DeepSeek Elastic Compute 以 Rust 實作,支援函數、容器、Firecracker MicroVM 及完整 VM 四個隔離層級,提供 RL Agent 訓練所需的快速映像載入與可搶佔軌跡回放。

基準測試

V4 在代理任務上表現突出:SWE-Verified 達 80.6(接近前沿閉源模型)、MCPAtlas Public 73.6(開源第二)、Toolathlon 51.8(開源第一)、Terminal Bench 2.0 67.9。長上下文檢索(MRCR 8-needle)在 256K tokens 維持 >0.82 精度,1M tokens 時降至 0.59。

推理設定

模型提供三種推理模式:Non-think(快速)、Think High(<think> 明確推理)、Think Max(需 ≥384K 上下文)。官方建議採樣參數為 temperature=1.0, top_p=1.0。四個變體(Pro/Flash × Base/Instruct)均在 HuggingFace 以 deepseek-ai/DeepSeek-V4-* 公開。

原始來源:HuggingFace Blog — DeepSeek-V4


Gemma 4:Google 四尺寸開源模型家族,Apache 2.0 授權

Google Blog · 2026-04-02

Google 於 2026 年 4 月 2 日發布 Gemma 4 模型家族,包含四個規格,覆蓋從邊緣裝置到伺服器端的部署場景,均以 Apache 2.0 授權開放使用。

模型規格

型號架構上下文視窗主要應用
E2B(Effective 2B)稠密128K tokens行動裝置、嵌入式
E4B(Effective 4B)稠密128K tokens邊緣推理
26B混合專家(MoE)256K tokens速度優先伺服器
31B全稠密256K tokens品質優先、微調

能力與基準

Gemma 4 全系列原生支援視覺與音訊輸入、函數呼叫、結構化 JSON 輸出,並針對多步推理與 Agent 工作流優化。在 Arena AI 排行榜上,31B 稠密版位列開源模型 第 3 名,26B MoE 版位列第 6 名。Google 聲稱效能可超越體積顯著更大的模型。

多語言訓練

模型原生訓練 140+ 語言,覆蓋低資源語言場景,開放授權使任何商業環境均可免費部署。

原始來源:Google Blog — Gemma 4


OpenAI 發布 GPT-5.5 與 GPT-5.5 Pro,開放 API 存取

OpenAI · 2026-04-25

OpenAI 於 2026 年 4 月 25 日宣布 GPT-5.5GPT-5.5 Pro 正式進入 API,在 Hacker News 引發 181 分熱議。這是 GPT-5 系列的改進版本,專注於推理品質與 API 可用性的進一步提升。

目前 OpenAI 開發者平台已可存取這兩個新模型端點。詳細技術規格、定價與上下文視窗資訊可在 OpenAI Developers 查閱。

原始來源:OpenAI Developers


End of article
0
Would love your thoughts, please comment.x
()
x