2026-07-03 — ByteDance 發布 Seed 2.0 模型卡、論文拆解 GRPO/DAPO 標準差恒等式、ELDR 以專家局部性優化 PD 分離 MoE 解碼路由

ByteDance Seed 2.0 模型卡公開：不拚跑分，鎖定長尾知識與複雜指令追隨兩大痛點

arXiv · 2026-06-30

背景

模型卡（model card）原本是記錄訓練資料、評測方式與已知限制的技術文件，但這份由 ByteDance Seed 團隊發布的 arXiv:2607.00248《Seed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity》規格明顯更大——它同時扮演技術報告與能力宣示的角色。Seed 2.0 系列其實早在 2026 年 2 月就以 Doubao Seed 2.0 之名對外發布，分成鎖定前沿推理與研究任務的 Pro、兼顧效能與成本的 Lite、追求高吞吐的 Mini，以及專攻程式開發的 Code 四種規格，是中國國民 AI 應用「豆包（Doubao）」背後的核心模型。這份模型卡是官方在數月後補上的完整技術文件，詳述訓練與評測方法論。

ByteDance Seed 團隊成立於 2023 年，由吳永輝與朱文佳共同帶隊，橫跨北京、上海、深圳、杭州四地辦公室，研究範圍涵蓋語言模型、語音、視覺、世界模型與 AI 基礎設施。根據市場分析，Seed 2.0 Pro 的定價約為每百萬輸入 token 0.47 美元、輸出 token 2.37 美元，相較 GPT-5.2 便宜約 3.7 倍（輸入）與 5.9 倍（輸出），也比 Claude Opus 4.5 便宜近十倍——這也是這份模型卡格外受關注的商業背景。

核心改動

論文摘要開宗明義指出，Seed 2.0 的研發起點不是追逐跑分，而是「找出使用者的真實需求」，再據此建構一套可信、具前瞻性的評測體系——挑選並抽象化真正貼近真實複雜場景的 benchmark，而非套用既有的學術評測集。這套評測體系被用來反過來指導模型訓練方向，鎖定兩個長期困擾大型語言模型的痛點：長尾知識（long-tail knowledge）不足，以及在複雜指令追隨（complex instruction following）上的不穩定。

摘要中特別強調，Seed 2.0 大幅改善了模型在「intricate, long-horizon tasks」——也就是步驟繁多、需長時間維持上下文一致性的任務——上的可靠性。除此之外，論文也宣稱 Seed 2.0 在推理智能、視覺理解與搜尋能力上達到「world-leading」水準，這三項能力被定位為滿足廣大使用者群最常見需求的核心能力，而非單純的學術能力展示。

影響範圍

與多數強調 benchmark 分數的技術報告不同，這份模型卡透過大量「真實世界使用案例」（real-world use cases）佐證模型能力，摘要中明確寫道 Seed 2.0「開始具備處理初步複雜真實世界任務的能力」。這種以應用場景取代跑分表格的敘事方式，某種程度反映了 ByteDance 對外溝通模型能力的策略轉向——畢竟 Doubao 應用本身已有約 1.55 億週活躍用戶，模型卡的目標讀者除了研究社群，更包含要向終端使用者交代能力邊界的產品團隊。

目前公開的摘要並未附上具體的 benchmark 數字，這與其強調「評測體系服務於真實需求」的論述邏輯一致，但也意味著外部研究者若要嚴謹比較 Seed 2.0 與同期模型的能力，仍須等待論文正文或第三方評測結果。

原始來源：arXiv:2607.00248、Hugging Face Papers

GRPO、Dr. GRPO 與 DAPO 其實是同一顆旋鈕：一條標準差恒等式說完三種強化學習後訓練法

arXiv · 2026-06-30

背景

自 DeepSeek-R1 帶紅 GRPO（Group Relative Policy Optimization）之後，RLVR（可驗證獎勵強化學習）已成為訓練大型語言模型推理能力的主流後訓練範式，但社群很快分裂出好幾種變體——GRPO 本身、拿掉除法步驟的 Dr. GRPO（GRPO Done Right），以及提出動態抽樣機制的 DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization）。arXiv:2607.00152《GRPO, Dr. GRPO, and DAPO Are Three Operations on One Number: The Group-Standard-Deviation Identity》由 Yong Yi Bay 與 Kathleen A. Yearick 於 2026 年 6 月 30 日發布，主張這三種各自宣稱解決不同問題的方法，其實都只是在調同一顆旋鈕。

GRPO 的核心做法是針對每個問題取樣一組回答，計算群組獎勵的平均值與標準差，再算出每個回答的相對優勢：

A_i = (r_i - mean(r)) / std(r)

其中 mean(r) 與 std(r) 分別是同一組回答獎勵的平均值與標準差。這個除以標準差的正規化步驟，正是三種方法分歧的起點：Dr. GRPO 認為除以標準差會系統性扭曲「答案一致性高」（即全對或全錯）題目的權重，因此主張直接拿掉分母，只保留 A_i = r_i - mean(r)；DAPO 則是另一條路——它保留除法，但透過動態抽樣把標準差等於零的整組（沒有訓練訊號的題目）直接篩除、重新抽樣補齊。

核心發現：一條恒等式

論文的貢獻在於證明這三種操作其實是同一個「群組標準差」在數學上的不同設定。作者指出，在對錯二元獎勵（right-or-wrong reward）的設定下，一組回答的標準差本身就精確等於該組訓練更新的大小——標準差不是中性的正規化係數，而是直接決定模型從這道題目能學到多少東西的調控旋鈕。答案分歧越大（部分對部分錯）的題目標準差越高、產生的梯度訊號也越強；答案完全一致（全對或全錯）的題目標準差為零，天然不貢獻任何學習訊號。

依此推論，GRPO 除以標準差等於把每道題目的更新幅度正規化到同一尺度，讓分歧小的題目也能貢獻和分歧大的題目同等份量的更新；Dr. GRPO 拿掉除法，則是刻意保留「高分歧題目理應學得更多」的原始訊號差異；DAPO 篩除標準差為零的組別，等同於直接忽略掉原本就不會產生訓練訊號的題目，把運算資源留給真正有分歧的樣本。三者的差異因此被化約成同一條恒等式底下的三種取值方式，而不是三套互不相關的工程技巧。

實驗驗證

作者在 Big-Math 資料集上進行控制實驗，驗證這條恒等式確實能解釋三種方法在實務訓練中觀察到的行為差異。論文共 18 頁，附 10 張圖與 4 張表，逐一拆解不同標準差處理方式如何反映在訓練曲線與最終模型表現上。這類「統一視角」的理論工作，價值不在於提出新演算法，而在於替後續設計者提供一個可以直接調整、而非盲目排列組合的單一自由度，讓下一代 RLVR 方法的設計討論能從「哪個技巧更好」收斂成「這顆旋鈕該轉到哪個位置」。

原始來源：arXiv:2607.00152

ELDR：PD 分離式 MoE 推理服務，靠「專家局部性」路由砍解碼延遲

arXiv · 2026-07-01

背景

把大型語言模型推理拆成 Prefill（處理輸入提示，運算密集）與 Decode（逐字產生輸出，記憶體頻寬密集）兩階段分開部署，也就是 PD 分離（prefill-decode disaggregation），近年已成為 vLLM 等主流推理框架的標準架構，因為兩階段資源需求特性完全不同，分離後可各自獨立擴展、避免互相干擾，實務上能帶來 2 到 7 倍的吞吐提升。但這套架構套用到 MoE（混合專家）模型時會冒出新問題：Decode 階段同一個 batch 裡不同請求可能各自啟動不同的專家（expert），若排班沒考慮這件事，同一個 Decode 節點在單一 step 內就得從 HBM 載入大量分散的專家權重，形成頻寬瓶頸。

arXiv:2607.00466《ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving》由 Sangjin Choi、Sukmin Cho、Yifan Xiong、Ziyue Yang、Youngjin Kwon、Peng Cheng 於 2026 年 7 月 1 日發布，指出現有的 PD 分離路由策略大多只做負載平衡，完全沒考慮「被排在同一批次的請求到底會啟動哪些專家」這件事，而這正是決定 Decode 延遲的關鍵變數。

方法細節

ELDR 的做法是先從 Prefill 階段的 activation 建立一個「專家簽章」（expert signature），用來預測這個請求在後續 Decode 階段大概會啟動哪些專家。系統離線先用平衡 K-means（balanced K-means）把可能的專家簽章分群，上線後再依「局部性帶」（locality-band routing）把簽章相近、預期會啟動重疊專家集合的請求，盡量路由到同一個 Decode 實例做批次處理，藉此提高同一 batch 內的專家重疊率、減少單一 step 需要載入的相異專家數。

離線階段：用平衡 K-means 對專家簽章分群，建立路由查找表
線上階段：以「局部性帶」路由，將專家簽章相近的請求導向同一 Decode 節點
簽章快取：與 KV cache 以 KV-block 為粒度共同索引，確保 prefix cache 命中或驅逐時簽章依然精確

最後一點是比較細節的系統設計——因為 prefix caching 意味著同一個請求的 KV cache 可能只有部分命中快取、部分需要重新計算，若簽章沒跟著 KV block 粒度同步更新，預測出的專家啟動模式就會失準。ELDR 把簽章快取直接掛在 KV cache 系統上、以區塊為單位維護，讓部分命中或驅逐都不會破壞簽章準確性，這是論文特別強調的系統設計重點。

結果

研究團隊把 ELDR 實作進 vLLM，並在 Qwen3-30B-A3B、GPT-OSS-120B、Gemma-4-26B-A4B 三個 MoE 模型、兩種工作負載（一般任務型與語言對話型）、最多 40 張 GPU 的部署規模上做評測。

指標	數值
Decode 端 TPOT（tokens-per-output-token）中位數降幅	5.9%–13.9%（任務型負載 7.0%–13.9%，對話型負載 5.9%–10.0%）
單一 Decode step 相異專家數減少	22.0%
路由額外開銷	每請求約 0.86 毫秒，佔 TTFT 的 1.2%
簽章快取佔用	約 HBM 容量的 0.24%

相較最強的純負載平衡基準線，ELDR 在不改動模型輸出結果的前提下換得個位數到十餘個百分點的延遲改善，而額外付出的路由計算開銷與記憶體佔用都相當輕量。這說明在 MoE 模型逐漸成為主流推理選項的情況下，PD 分離架構下的路由策略還有專屬於「專家局部性」這個維度的最佳化空間，並非單靠傳統負載平衡就能榨乾效能。

原始來源：arXiv:2607.00466、Hugging Face Papers

End of article