2026-06-20 — DeepSeek-V4 百萬 Token MoE、LLM-as-a-Judge Kappa 通縮系統評測、CacheWeaver RAG 前綴樹加速

DeepSeek-V4：以混合稀疏注意力實現百萬 Token 上下文的高效推理

arXiv cs.CL · 2026-06-20

DeepSeek-AI 團隊於 2026 年 6 月發布 arXiv:2606.19348，描述 DeepSeek-V4 系列的兩款 MoE 模型：DeepSeek-V4-Pro（1.6T 總參數、49B 激活）與 DeepSeek-V4-Flash（284B 總參數、13B 激活），兩者均支援 100 萬 Token 的上下文長度。相較於前代 DeepSeek-V3.2，V4-Pro 在百萬 Token 推理場景下僅需 27% 的單 Token 推理 FLOPs，KV Cache 也僅為前代的 10%。

混合注意力架構

核心注意力創新在於兩種壓縮模式的混合部署：Compressed Sparse Attention（CSA）以壓縮係數 m 縮減 KV Cache，並結合滑動視窗分支處理局部依賴；Heavily Compressed Attention（HCA）則採用更大的壓縮係數 m′（m′ >> m），針對超長上下文進行更激進的壓縮。透過在 Transformer 層間交替部署 CSA 與 HCA，模型在保留全域上下文感知能力的同時，顯著降低記憶體佔用。

在 MoE 設計方面，V4 沿用 DeepSeekMoE 框架的路由專家與共享專家架構，但將親和性評分函數從 Sigmoid 改為 Sqrt(Softplus(·))，使得各專家接收到更均勻的梯度訊號。殘差連接機制也由標準形式升級為 Manifold-Constrained Hyper-Connections（mHC），透過將殘差映射約束在雙隨機矩陣流形上，改善梯度流穩定性。

訓練基礎設施

DeepSeek-V4-Flash 預訓練語料為 32T Tokens，DeepSeek-V4-Pro 達 33T Tokens，後訓練階段包含專業領域訓練與策略蒸餾（on-policy distillation）。優化器採用 Muon，以混合 Newton-Schulz 迭代加速收斂，有別於主流的 AdamW。精度策略上，RoPE 維度使用 BF16 儲存，其餘部分採 FP8，專家權重與索引運算則推進至 FP4。

在分散式推理層面，V4 引入細粒度專家並行（Fine-grained Expert Parallelism）搭配通訊計算重疊，加速比達 1.5–1.96×。核心開發工具鏈採用 TileLang DSL，並整合 SMT Solver 輔助的形式化核心分析，確保跨批次的逐位元可重現性（bitwise reproducibility）。

效能評測

在推理效率指標上，以 100 萬 Token 上下文場景與 DeepSeek-V3.2 相比：

模型	單 Token FLOPs（相對 V3.2）	KV Cache 大小（相對 V3.2）
`DeepSeek-V4-Pro`	27%	10%
`DeepSeek-V4-Flash`	10%	7%

DeepSeek-V4-Pro-Max 在 SimpleQA 與 Chinese-SimpleQA 的世界知識任務上達到開源模型最優水準，在長上下文基準（百萬 Token 評測）與 Agent 任務上已接近閉源模型表現，並在標準推理基準上與 GPT-5.2、Gemini-3.0-Pro 相互競爭。模型檢查點已公開於 Hugging Face。

原始來源：arXiv:2606.19348

可信度不等於有效性：針對 21 個 LLM-as-a-Judge 模型的系統性大規模評測

arXiv cs.CL · 2026-06-20

Justin D. Norman、Michael U. Rivera、D. Alex Hughes 於 2026 年 6 月發表 arXiv:2606.19544，對來自 9 家供應商共 21 個 LLM 評審模型進行迄今規模最大的系統性評測。研究覆蓋 MT-Bench、JudgeBench、RewardBench 三個基準，累計約 54.1 萬次個別判斷，核心發現為：所有 21 個評審模型均存在普遍性的 Kappa 通縮（kappa deflation），MT-Bench 上的通縮幅度達 33–41 個百分點。

評測設計

研究對象涵蓋三個層級的判斷模型：生產級別（GPT-4o、Gemini 2.5 Pro、Claude Haiku 4.5、Llama 3.3 70B 等）、成本最佳化版本（GPT-4.1-mini、Claude Sonnet 4、Mixtral 8x22B），以及 2026 年 4 月後發布的前沿模型（GPT-5.4、Claude Opus 4.6、Claude Sonnet 4.6、Gemini 3.1 Pro、DeepSeek V3.2、Kimi K2.5、GLM-5 等）。評測協議分為三個維度：一致性（Agreement）、穩定性（Consistency）、偏差審計（Bias Audit），共執行 118 次獨立實驗。

一致性協議以 Cohen's κ 與 Krippendorff's α 作為主要指標，刻意取代慣用的精確匹配率（exact match）。穩定性協議對每個測試項目進行 3–5 次獨立推理，同時加入 AB+BA 位置對調，量測測試再測信度（test-retest reliability）與位置翻轉率。偏差審計則透過位置對調對組，計算位置偏差 |P(A)−0.5| 與回應長度的 Spearman 相關係數，以分離位置偏差與冗長偏差。

Kappa 通縮現象

Kappa 通縮（Δκ）定義為精確匹配率與 Cohen's κ 之間的差距，反映了基線一致率（chance agreement）被精確匹配率所掩蓋的程度。在三元標籤設定下（更好 / 相同 / 更差），85% 的精確匹配率實際上僅對應約 48% 的機會校正一致率（κ ≈ 0.48）。三個基準的平均通縮幅度如下：

MT-Bench：平均通縮 38.6 個百分點（範圍 33.8–41.2 pp）
JudgeBench：平均通縮 23.7 個百分點
RewardBench：平均通縮 10.4 個百分點

MT-Bench 上 21 個模型的 κ 值分布僅跨越 13.5 個百分點（0.376–0.511），顯示該基準對模型間差異的鑑別力相當有限；相較之下，JudgeBench 的 κ 值範圍達 60.4 個百分點（0.271–0.875），鑑別力高出 4.5 倍。

可信度與有效性的悖論

研究揭示最核心的悖論：Qwen 3 8B 與 Gemini 2.5 Flash 的測試再測信度均超過 0.95（極高穩定性），但位置偏差卻同時高於 0.10——即這兩個模型穩定且一致地偏向某一位置，可信度高但有效性成疑。位置偏差整體範圍為 0.002（Gemini 2.5 Pro 最低）至 0.192（Qwen 3 8B 最高）；冗長偏差則在所有 21 個模型上均小於 0.011，相比 2023 年文獻中 20–40% 的方差貢獻已有大幅改善。

跨基準的排名不穩定性同樣突出：21 個模型中有 11 個在不同基準間出現 ≥4 個名次的偏移，Llama 3.3 70B 的名次落差達 15 位。Anthropic 系列模型在 JudgeBench 上的平均 κ 為 0.77、平均位置偏差為 0.020，在高難度測試項目上表現最為穩定。作者建議部署前完成五項驗證：以 κ/α 為主要匯報指標、AB+BA 位置偏差量測、≥3 次獨立測試再測、跨 ≥2 個基準交叉驗證，以及確認位置偏差低於 0.10 的門檻。

原始來源：arXiv:2606.19544

CacheWeaver：以前綴樹重排證據順序加速 RAG 推理的 KV Cache 命中率

arXiv cs.CL · 2026-06-18

Kaizhen Tan、Rong Gu、Mingyuan Li 於 2026 年 6 月發表 arXiv:2606.19667，提出 CacheWeaver——一種在 Prompt 層運作的輕量方法，透過重排 RAG 證據的順序來最大化 KV Cache 前綴命中。在三種 vLLM 配置下，相較於以檢索排序直接做前綴快取的基線，中位首 Token 時延（TTFT）降低 20–33%，且不影響回答品質。

問題背景：RAG 的前綴對齊困境

vLLM 的自動前綴快取（Automatic Prefix Caching，APC）以 16 個 Token 為單位的連續區塊複用 KV 狀態，前提是請求必須共享相同的 Token 前綴。然而在 RAG 場景中，相鄰查詢的檢索結果常有文件重疊，卻因排序不同導致前綴在第一份不同文件處即發生分歧，已快取的 KV 區塊無法被後續請求複用。如論文所述：「文件集合重疊普遍，但前綴重疊罕見」——這正是 CacheWeaver 所解決的核心問題。

標準基線「以檢索排序做前綴快取」雖已啟用 APC，但完全忽略跨請求之間的順序協調。CacheWeaver 的洞察在於：調整文件的輸入順序不改變檢索結果，卻能顯著提升 KV Cache 的區塊複用率，因為 vLLM 的快取粒度（16 Token 區塊）與完整文件長度對齊，每份文件映射到連續的快取區塊。

前綴樹與貪婪演算法

CacheWeaver 維護一棵前綴樹（Trie），記錄近期服務過的文件序列，每個節點儲存文件 ID 與最近使用元資料。收到新查詢後，系統以貪婪走訪從 Trie 根節點出發，每步選取「能延伸現有快取路徑的第一個未使用文件」；若無任何已快取的後繼文件，則將剩餘文件依原始檢索排序附加在後。

演算法複雜度：O(k²)，k 為每次查詢的檢索文件數
最優條件：每個訪問節點的已快取子節點 ≤ 1
次優情境：多個已快取子節點（分支歧義），在突發查詢模式下罕見

貪婪方案達到了 oracle（窮舉最佳排列）97.5% 的 TTFT 增益：oracle 的中位 TTFT 降幅為 30.3%，貪婪方案為 29.6%，差距僅 0.46 ms（p50）。

實驗配置與結果

研究在三種硬體與模型組合上進行測試：

配置	GPU	模型	vLLM 版本	最大上下文長度
A	RTX 4060 Ti 8GB	`Qwen2.5-1.5B`	0.8.5.post1	2048
B	RTX 4090 24GB	`Qwen2.5-7B`	0.17.1	4096
C	RTX 4090D 24GB	`Qwen2.5-7B`	0.8.5.post1	4096

QA 基準涵蓋 HotpotQA fullwiki（最多 5 段上下文，995/996 段為唯一文件）、NQ-Open（TF-IDF 延遲工作負載，中位 TTFT 降幅 14.0%）、TriviaQA rc.wikipedia（每題 5 段 Wikipedia 證據），以及 100 文件與 500 文件合成控制追蹤（可調整文件重疊率）。配置 A 的中位 TTFT 從 72.5 ms 降至 57.9 ms（降幅 20.2%），配置 B 從 59.6 ms 降至 40.1 ms（降幅 32.7%），所有基準上的回答品質均無顯著下降。CacheWeaver 不修改推理引擎與檢索結果，僅在 Prompt 組裝層插入，可直接整合至現有 vLLM 部署。

原始來源：arXiv:2606.19667

End of article