2026-04-25 — DeepSeek-V4 百萬 Token 代理模型、Gemma 4 開源家族、GPT-5.5 API 上線

DeepSeek-V4：以百萬 Token 上下文重新定義開源代理模型

HuggingFace Blog · 2026-04-24

DeepSeek 於 2026 年 4 月 24 日發布 DeepSeek-V4，分為 V4-Pro（1.6T 總參數、49B 活化）與 V4-Flash（284B 總參數、13B 活化）兩個變體，均採用混合專家（MoE）架構，並共享同一個核心創新：在 1M token 上下文視窗內維持高效推理，同時將 KV Cache 記憶體消耗壓縮至標準 GQA-8 的 2%。

混合壓縮注意力機制

V4 設計的核心是兩種互補的注意力變體交替堆疊：

CSA（Compressed Sparse Attention）：4× KV 壓縮配合稀疏區塊選擇，適合處理中等距離依賴。
HCA（Heavily Compressed Attention）：128× KV 壓縮配合全連接注意力，負責超長距離模式。

KV 儲存精度分層：RoPE 維度以 BF16 保留精度，多數 KV 項目以 FP8 儲存，快速索引器則以 FP4。在 1M token 長度下，V4-Pro 的單 token 推理 FLOPs 僅為 V3.2 的 27%，V4-Flash 更低至 10%。

代理工作流的三項針對性設計

1. 跨工具呼叫保留推理鏈：在工具調用的對話中，V4 將 <think> 推理塊持續傳遞到後續呼叫之間，確保模型不因 tool response 插入而失去上下文。非工具對話則丟棄推理以節省上下文視窗。

2. 專用工具呼叫 Schema：使用 |DSML| 特殊 token 加上 XML 格式，以 string="true" 屬性區分字串參數與結構化 JSON 參數，顯著降低解析失敗率。

3. DSEc 沙箱基礎設施：DeepSeek Elastic Compute 以 Rust 實作，支援函數、容器、Firecracker MicroVM 及完整 VM 四個隔離層級，提供 RL Agent 訓練所需的快速映像載入與可搶佔軌跡回放。

基準測試

V4 在代理任務上表現突出：SWE-Verified 達 80.6（接近前沿閉源模型）、MCPAtlas Public 73.6（開源第二）、Toolathlon 51.8（開源第一）、Terminal Bench 2.0 67.9。長上下文檢索（MRCR 8-needle）在 256K tokens 維持 >0.82 精度，1M tokens 時降至 0.59。

推理設定

模型提供三種推理模式：Non-think（快速）、Think High（<think> 明確推理）、Think Max（需 ≥384K 上下文）。官方建議採樣參數為 temperature=1.0, top_p=1.0。四個變體（Pro/Flash × Base/Instruct）均在 HuggingFace 以 deepseek-ai/DeepSeek-V4-* 公開。

原始來源：HuggingFace Blog — DeepSeek-V4

Gemma 4：Google 四尺寸開源模型家族，Apache 2.0 授權

Google Blog · 2026-04-02

Google 於 2026 年 4 月 2 日發布 Gemma 4 模型家族，包含四個規格，覆蓋從邊緣裝置到伺服器端的部署場景，均以 Apache 2.0 授權開放使用。

模型規格

型號	架構	上下文視窗	主要應用
E2B（Effective 2B）	稠密	128K tokens	行動裝置、嵌入式
E4B（Effective 4B）	稠密	128K tokens	邊緣推理
26B	混合專家（MoE）	256K tokens	速度優先伺服器
31B	全稠密	256K tokens	品質優先、微調

能力與基準

Gemma 4 全系列原生支援視覺與音訊輸入、函數呼叫、結構化 JSON 輸出，並針對多步推理與 Agent 工作流優化。在 Arena AI 排行榜上，31B 稠密版位列開源模型 第 3 名，26B MoE 版位列第 6 名。Google 聲稱效能可超越體積顯著更大的模型。

多語言訓練

模型原生訓練 140+ 語言，覆蓋低資源語言場景，開放授權使任何商業環境均可免費部署。

原始來源：Google Blog — Gemma 4

OpenAI 發布 GPT-5.5 與 GPT-5.5 Pro，開放 API 存取

OpenAI · 2026-04-25

OpenAI 於 2026 年 4 月 25 日宣布 GPT-5.5 與 GPT-5.5 Pro 正式進入 API，在 Hacker News 引發 181 分熱議。這是 GPT-5 系列的改進版本，專注於推理品質與 API 可用性的進一步提升。

目前 OpenAI 開發者平台已可存取這兩個新模型端點。詳細技術規格、定價與上下文視窗資訊可在 OpenAI Developers 查閱。

原始來源：OpenAI Developers

End of article