AI 前沿 2026 年 6 月 20 日

2026-06-20 — DeepSeek-V4 百萬 Token MoE、LLM-as-a-Judge Kappa 通縮系統評測、CacheWeaver RAG 前綴樹加速

primary=https://arxiv.org/abs/2606.19348 primary=https://arxiv.org/abs/2606.19544 primary=https://arxiv.org/abs/2606.19667

DeepSeek-V4:以混合稀疏注意力實現百萬 Token 上下文的高效推理

arXiv cs.CL · 2026-06-20

DeepSeek-AI 團隊於 2026 年 6 月發布 arXiv:2606.19348,描述 DeepSeek-V4 系列的兩款 MoE 模型:DeepSeek-V4-Pro(1.6T 總參數、49B 激活)與 DeepSeek-V4-Flash(284B 總參數、13B 激活),兩者均支援 100 萬 Token 的上下文長度。相較於前代 DeepSeek-V3.2,V4-Pro 在百萬 Token 推理場景下僅需 27% 的單 Token 推理 FLOPs,KV Cache 也僅為前代的 10%。

混合注意力架構

核心注意力創新在於兩種壓縮模式的混合部署:Compressed Sparse Attention(CSA)以壓縮係數 m 縮減 KV Cache,並結合滑動視窗分支處理局部依賴;Heavily Compressed Attention(HCA)則採用更大的壓縮係數 m′(m′ >> m),針對超長上下文進行更激進的壓縮。透過在 Transformer 層間交替部署 CSA 與 HCA,模型在保留全域上下文感知能力的同時,顯著降低記憶體佔用。

在 MoE 設計方面,V4 沿用 DeepSeekMoE 框架的路由專家與共享專家架構,但將親和性評分函數從 Sigmoid 改為 Sqrt(Softplus(·)),使得各專家接收到更均勻的梯度訊號。殘差連接機制也由標準形式升級為 Manifold-Constrained Hyper-Connections(mHC),透過將殘差映射約束在雙隨機矩陣流形上,改善梯度流穩定性。

訓練基礎設施

DeepSeek-V4-Flash 預訓練語料為 32T Tokens,DeepSeek-V4-Pro 達 33T Tokens,後訓練階段包含專業領域訓練與策略蒸餾(on-policy distillation)。優化器採用 Muon,以混合 Newton-Schulz 迭代加速收斂,有別於主流的 AdamW。精度策略上,RoPE 維度使用 BF16 儲存,其餘部分採 FP8,專家權重與索引運算則推進至 FP4。

在分散式推理層面,V4 引入細粒度專家並行(Fine-grained Expert Parallelism)搭配通訊計算重疊,加速比達 1.5–1.96×。核心開發工具鏈採用 TileLang DSL,並整合 SMT Solver 輔助的形式化核心分析,確保跨批次的逐位元可重現性(bitwise reproducibility)。

效能評測

在推理效率指標上,以 100 萬 Token 上下文場景與 DeepSeek-V3.2 相比:

模型單 Token FLOPs(相對 V3.2)KV Cache 大小(相對 V3.2)
DeepSeek-V4-Pro27%10%
DeepSeek-V4-Flash10%7%

DeepSeek-V4-Pro-Max 在 SimpleQA 與 Chinese-SimpleQA 的世界知識任務上達到開源模型最優水準,在長上下文基準(百萬 Token 評測)與 Agent 任務上已接近閉源模型表現,並在標準推理基準上與 GPT-5.2、Gemini-3.0-Pro 相互競爭。模型檢查點已公開於 Hugging Face。

原始來源:arXiv:2606.19348


可信度不等於有效性:針對 21 個 LLM-as-a-Judge 模型的系統性大規模評測

arXiv cs.CL · 2026-06-20

Justin D. Norman、Michael U. Rivera、D. Alex Hughes 於 2026 年 6 月發表 arXiv:2606.19544,對來自 9 家供應商共 21 個 LLM 評審模型進行迄今規模最大的系統性評測。研究覆蓋 MT-BenchJudgeBenchRewardBench 三個基準,累計約 54.1 萬次個別判斷,核心發現為:所有 21 個評審模型均存在普遍性的 Kappa 通縮(kappa deflation),MT-Bench 上的通縮幅度達 33–41 個百分點。

評測設計

研究對象涵蓋三個層級的判斷模型:生產級別(GPT-4o、Gemini 2.5 Pro、Claude Haiku 4.5、Llama 3.3 70B 等)、成本最佳化版本(GPT-4.1-mini、Claude Sonnet 4、Mixtral 8x22B),以及 2026 年 4 月後發布的前沿模型(GPT-5.4、Claude Opus 4.6、Claude Sonnet 4.6、Gemini 3.1 Pro、DeepSeek V3.2、Kimi K2.5、GLM-5 等)。評測協議分為三個維度:一致性(Agreement)、穩定性(Consistency)、偏差審計(Bias Audit),共執行 118 次獨立實驗。

一致性協議以 Cohen's κ 與 Krippendorff's α 作為主要指標,刻意取代慣用的精確匹配率(exact match)。穩定性協議對每個測試項目進行 3–5 次獨立推理,同時加入 AB+BA 位置對調,量測測試再測信度(test-retest reliability)與位置翻轉率。偏差審計則透過位置對調對組,計算位置偏差 |P(A)−0.5| 與回應長度的 Spearman 相關係數,以分離位置偏差與冗長偏差。

Kappa 通縮現象

Kappa 通縮(Δκ)定義為精確匹配率與 Cohen's κ 之間的差距,反映了基線一致率(chance agreement)被精確匹配率所掩蓋的程度。在三元標籤設定下(更好 / 相同 / 更差),85% 的精確匹配率實際上僅對應約 48% 的機會校正一致率(κ ≈ 0.48)。三個基準的平均通縮幅度如下:

  • MT-Bench:平均通縮 38.6 個百分點(範圍 33.8–41.2 pp)
  • JudgeBench:平均通縮 23.7 個百分點
  • RewardBench:平均通縮 10.4 個百分點

MT-Bench 上 21 個模型的 κ 值分布僅跨越 13.5 個百分點(0.376–0.511),顯示該基準對模型間差異的鑑別力相當有限;相較之下,JudgeBench 的 κ 值範圍達 60.4 個百分點(0.271–0.875),鑑別力高出 4.5 倍。

可信度與有效性的悖論

研究揭示最核心的悖論:Qwen 3 8B 與 Gemini 2.5 Flash 的測試再測信度均超過 0.95(極高穩定性),但位置偏差卻同時高於 0.10——即這兩個模型穩定且一致地偏向某一位置,可信度高但有效性成疑。位置偏差整體範圍為 0.002(Gemini 2.5 Pro 最低)至 0.192(Qwen 3 8B 最高);冗長偏差則在所有 21 個模型上均小於 0.011,相比 2023 年文獻中 20–40% 的方差貢獻已有大幅改善。

跨基準的排名不穩定性同樣突出:21 個模型中有 11 個在不同基準間出現 ≥4 個名次的偏移,Llama 3.3 70B 的名次落差達 15 位。Anthropic 系列模型在 JudgeBench 上的平均 κ 為 0.77、平均位置偏差為 0.020,在高難度測試項目上表現最為穩定。作者建議部署前完成五項驗證:以 κ/α 為主要匯報指標、AB+BA 位置偏差量測、≥3 次獨立測試再測、跨 ≥2 個基準交叉驗證,以及確認位置偏差低於 0.10 的門檻。

原始來源:arXiv:2606.19544


CacheWeaver:以前綴樹重排證據順序加速 RAG 推理的 KV Cache 命中率

arXiv cs.CL · 2026-06-18

Kaizhen Tan、Rong Gu、Mingyuan Li 於 2026 年 6 月發表 arXiv:2606.19667,提出 CacheWeaver——一種在 Prompt 層運作的輕量方法,透過重排 RAG 證據的順序來最大化 KV Cache 前綴命中。在三種 vLLM 配置下,相較於以檢索排序直接做前綴快取的基線,中位首 Token 時延(TTFT)降低 20–33%,且不影響回答品質。

問題背景:RAG 的前綴對齊困境

vLLM 的自動前綴快取(Automatic Prefix Caching,APC)以 16 個 Token 為單位的連續區塊複用 KV 狀態,前提是請求必須共享相同的 Token 前綴。然而在 RAG 場景中,相鄰查詢的檢索結果常有文件重疊,卻因排序不同導致前綴在第一份不同文件處即發生分歧,已快取的 KV 區塊無法被後續請求複用。如論文所述:「文件集合重疊普遍,但前綴重疊罕見」——這正是 CacheWeaver 所解決的核心問題。

標準基線「以檢索排序做前綴快取」雖已啟用 APC,但完全忽略跨請求之間的順序協調。CacheWeaver 的洞察在於:調整文件的輸入順序不改變檢索結果,卻能顯著提升 KV Cache 的區塊複用率,因為 vLLM 的快取粒度(16 Token 區塊)與完整文件長度對齊,每份文件映射到連續的快取區塊。

前綴樹與貪婪演算法

CacheWeaver 維護一棵前綴樹(Trie),記錄近期服務過的文件序列,每個節點儲存文件 ID 與最近使用元資料。收到新查詢後,系統以貪婪走訪從 Trie 根節點出發,每步選取「能延伸現有快取路徑的第一個未使用文件」;若無任何已快取的後繼文件,則將剩餘文件依原始檢索排序附加在後。

演算法複雜度:O(k²),k 為每次查詢的檢索文件數
最優條件:每個訪問節點的已快取子節點 ≤ 1
次優情境:多個已快取子節點(分支歧義),在突發查詢模式下罕見

貪婪方案達到了 oracle(窮舉最佳排列)97.5% 的 TTFT 增益:oracle 的中位 TTFT 降幅為 30.3%,貪婪方案為 29.6%,差距僅 0.46 ms(p50)。

實驗配置與結果

研究在三種硬體與模型組合上進行測試:

配置GPU模型vLLM 版本最大上下文長度
ARTX 4060 Ti 8GBQwen2.5-1.5B0.8.5.post12048
BRTX 4090 24GBQwen2.5-7B0.17.14096
CRTX 4090D 24GBQwen2.5-7B0.8.5.post14096

QA 基準涵蓋 HotpotQA fullwiki(最多 5 段上下文,995/996 段為唯一文件)、NQ-Open(TF-IDF 延遲工作負載,中位 TTFT 降幅 14.0%)、TriviaQA rc.wikipedia(每題 5 段 Wikipedia 證據),以及 100 文件與 500 文件合成控制追蹤(可調整文件重疊率)。配置 A 的中位 TTFT 從 72.5 ms 降至 57.9 ms(降幅 20.2%),配置 B 從 59.6 ms 降至 40.1 ms(降幅 32.7%),所有基準上的回答品質均無顯著下降。CacheWeaver 不修改推理引擎與檢索結果,僅在 Prompt 組裝層插入,可直接整合至現有 vLLM 部署。

原始來源:arXiv:2606.19667


End of article
0
Would love your thoughts, please comment.x
()
x