DeepSeek-V4:以百萬 Token 上下文重新定義開源代理模型
HuggingFace Blog · 2026-04-24
DeepSeek 於 2026 年 4 月 24 日發布 DeepSeek-V4,分為 V4-Pro(1.6T 總參數、49B 活化)與 V4-Flash(284B 總參數、13B 活化)兩個變體,均採用混合專家(MoE)架構,並共享同一個核心創新:在 1M token 上下文視窗內維持高效推理,同時將 KV Cache 記憶體消耗壓縮至標準 GQA-8 的 2%。
混合壓縮注意力機制
V4 設計的核心是兩種互補的注意力變體交替堆疊:
- CSA(Compressed Sparse Attention):4× KV 壓縮配合稀疏區塊選擇,適合處理中等距離依賴。
- HCA(Heavily Compressed Attention):128× KV 壓縮配合全連接注意力,負責超長距離模式。
KV 儲存精度分層:RoPE 維度以 BF16 保留精度,多數 KV 項目以 FP8 儲存,快速索引器則以 FP4。在 1M token 長度下,V4-Pro 的單 token 推理 FLOPs 僅為 V3.2 的 27%,V4-Flash 更低至 10%。
代理工作流的三項針對性設計
1. 跨工具呼叫保留推理鏈:在工具調用的對話中,V4 將 <think> 推理塊持續傳遞到後續呼叫之間,確保模型不因 tool response 插入而失去上下文。非工具對話則丟棄推理以節省上下文視窗。
2. 專用工具呼叫 Schema:使用 |DSML| 特殊 token 加上 XML 格式,以 string="true" 屬性區分字串參數與結構化 JSON 參數,顯著降低解析失敗率。
3. DSEc 沙箱基礎設施:DeepSeek Elastic Compute 以 Rust 實作,支援函數、容器、Firecracker MicroVM 及完整 VM 四個隔離層級,提供 RL Agent 訓練所需的快速映像載入與可搶佔軌跡回放。
基準測試
V4 在代理任務上表現突出:SWE-Verified 達 80.6(接近前沿閉源模型)、MCPAtlas Public 73.6(開源第二)、Toolathlon 51.8(開源第一)、Terminal Bench 2.0 67.9。長上下文檢索(MRCR 8-needle)在 256K tokens 維持 >0.82 精度,1M tokens 時降至 0.59。
推理設定
模型提供三種推理模式:Non-think(快速)、Think High(<think> 明確推理)、Think Max(需 ≥384K 上下文)。官方建議採樣參數為 temperature=1.0, top_p=1.0。四個變體(Pro/Flash × Base/Instruct)均在 HuggingFace 以 deepseek-ai/DeepSeek-V4-* 公開。
Gemma 4:Google 四尺寸開源模型家族,Apache 2.0 授權
Google Blog · 2026-04-02
Google 於 2026 年 4 月 2 日發布 Gemma 4 模型家族,包含四個規格,覆蓋從邊緣裝置到伺服器端的部署場景,均以 Apache 2.0 授權開放使用。
模型規格
| 型號 | 架構 | 上下文視窗 | 主要應用 |
|---|---|---|---|
| E2B(Effective 2B) | 稠密 | 128K tokens | 行動裝置、嵌入式 |
| E4B(Effective 4B) | 稠密 | 128K tokens | 邊緣推理 |
| 26B | 混合專家(MoE) | 256K tokens | 速度優先伺服器 |
| 31B | 全稠密 | 256K tokens | 品質優先、微調 |
能力與基準
Gemma 4 全系列原生支援視覺與音訊輸入、函數呼叫、結構化 JSON 輸出,並針對多步推理與 Agent 工作流優化。在 Arena AI 排行榜上,31B 稠密版位列開源模型 第 3 名,26B MoE 版位列第 6 名。Google 聲稱效能可超越體積顯著更大的模型。
多語言訓練
模型原生訓練 140+ 語言,覆蓋低資源語言場景,開放授權使任何商業環境均可免費部署。
OpenAI 發布 GPT-5.5 與 GPT-5.5 Pro,開放 API 存取
OpenAI · 2026-04-25
OpenAI 於 2026 年 4 月 25 日宣布 GPT-5.5 與 GPT-5.5 Pro 正式進入 API,在 Hacker News 引發 181 分熱議。這是 GPT-5 系列的改進版本,專注於推理品質與 API 可用性的進一步提升。
目前 OpenAI 開發者平台已可存取這兩個新模型端點。詳細技術規格、定價與上下文視窗資訊可在 OpenAI Developers 查閱。
原始來源:OpenAI Developers