2026-05-09 — Cola DLM 連續潛空間擴散 LM、Skill1 統一 RL Agent、混合架構稀疏前綴快取

Cola DLM：連續潛空間擴散語言模型挑戰自回歸正統，2B 規模下展現強勁 Scaling

arXiv cs.CL · 2026-05-08

來自多所研究機構的團隊於 2026 年 5 月提出 Cola DLM（Continuous Latent Diffusion Language Model），以階層式連續潛空間擴散取代傳統的 token-by-token 自回歸生成，在 8 個標準基準測試中與同規模自回歸模型及 LLaDA 比較，並記錄了可信的 scaling 曲線至約 2000 EFLOPs。

核心架構

Cola DLM 的生成流程分為兩個階段：首先，一個 Text VAE 將輸入文本壓縮為連續潛向量序列；其次，一個 block-causal Diffusion Transformer（DiT）在潛空間中學習語意先驗分佈，生成時從高斯噪聲逐步去噪至目標潛向量，最後由 VAE decoder 解碼回文本。

與 LLaDA 等離散擴散語言模型的差異在於：Cola DLM 在真正的連續空間操作，而非 mask token 的離散替換。這讓模型的生成過程更接近圖像擴散模型的哲學——在語意層組織全局結構，再在局部層填充細節——而非強制要求左到右的順序依賴。

規格細節

論文以 ~2B 參數規模對比自回歸 baseline 與 LLaDA，在 8 個評估基準（包含 reasoning 與生成品質任務）上的得分具競爭力。作者特別強調，perplexity 對非自回歸模型的評估有本質侷限——Cola DLM 不建模 token 條件機率，因此以生成品質指標（如 GenPPL）作為更公平的比較維度。

Scaling 實驗顯示 loss 隨 compute 預算的提升呈現穩定下降趨勢，log-linear scaling 行為在連續潛空間擴散架構下得以保留，這是該類方法此前缺乏的重要實證支撐。

影響範圍

Cola DLM 為非自回歸語言模型提供了一條架構上更完整的路線：VAE 壓縮解決了離散擴散中的 token 粒度問題，連續空間使擴散過程的數學工具可直接應用。當前限制是推論速度——多步去噪的 wall-clock 時間仍高於自回歸模型的單次前向傳遞，需要 DDIM/DDPM 加速或 consistency distillation 進一步優化。arXiv ID 2605.06548。

原始來源：arXiv:2605.06548

Skill1：統一強化學習框架同步演化 Agent 的技能選擇、執行與萃取三能力

arXiv cs.LG · 2026-05-08

Skill1（arXiv 2605.06130）提出一個單一 RL 策略框架，以共享目標函式同時訓練技能選擇（selection）、技能執行（utilization）與技能萃取（distillation）三項能力，解決先前方法分開最佳化各子任務時產生的目標衝突問題，在 ALFWorld 與 WebShop 基準上超越現有 skill-based 與 RL baseline。

原本的問題

語言模型 agent 的技能函式庫（skill library）方法將 agent 能力拆分為可重用的技能單元，以提高跨任務遷移效率。然而現有方法（如 Voyager、DEPS）對三個子問題分別建立獨立的獎勵訊號：選擇好技能、用好技能、從成功經驗萃取新技能——三者常因不同的最佳化目標而相互干擾，導致技能函式庫品質難以持續提升。

採用的方法

Skill1 的核心設計是統一的 task-outcome 信號分解：以任務結果的低頻趨勢（long-term trend）作為技能選擇的信用分配（credit），以結果的高頻波動（high-frequency variation）作為技能萃取的信用分配。執行能力則透過 conditioning 在選定技能下最大化完成率。三者共用一個策略網路，但接收不同的 credit 信號，避免梯度衝突同時保留功能分工。

Ablation study 顯示移除任一 credit 信號均顯著降低性能，驗證三者協同演化的必要性。

實際效果

ALFWorld（家居任務導航）：超越 DEPS 等先前 SOTA skill-based 方法
WebShop（電商導航 agent）：在 instruction-following 複雜任務上同樣取得改善
技能函式庫品質隨訓練步數單調成長，無收斂後退化現象

原始來源：arXiv:2605.06130

混合架構 LLM 的稀疏前綴快取：Checkpoint 最佳化降低遞迴層記憶體開銷

arXiv cs.LG · 2026-05-08

前綴快取（prefix caching）是降低 LLM 服務推論成本的重要機制，但 SSM（State Space Model）與 Mamba 等遞迴架構的混合模型（hybrid model）無法直接套用傳統的 KV cache 重用邏輯。arXiv 2605.05219 提出稀疏前綴快取（Sparse Prefix Caching），以離散 checkpoint 儲存遞迴狀態，並以動態規劃最佳化 checkpoint 位置，在有限記憶體預算下最大化快取命中率。

核心架構差異

純 Transformer 的 KV cache 直接儲存每個 token 的 key/value 張量，快取命中時從指定位置繼續解碼即可。遞迴層（如 Mamba 的 SSM）的狀態是一個固定大小的壓縮摘要，無法任意從中間 token 恢復——必須從某個已儲存的 checkpoint 重新計算至目標位置，因此快取策略本質上是在「儲存更多 checkpoint（較少重計算）」與「節省記憶體（允許更多快取命中）」之間取捨。

規格細節

論文將 checkpoint 位置問題形式化為一個最佳化問題：給定請求分布（prefix 共用長度的分布）與記憶體預算 M，以 O(NM) 動態規劃演算法找出最小化平均重計算量的 checkpoint 集合。相較於等距 block caching 等啟發式方法，distribution-aware 的 DP 解在 checkpoint 數量受限時明顯佔優，在 QuALITY 與 System Prompts 資料集上均有實測驗證。

影響範圍

隨著 Mamba2、Jamba 等 SSM-Transformer hybrid 模型進入生產部署，現有 vLLM、SGLang 等推論框架的 prefix caching 模組需要對應的 hybrid-aware 更新。本文的方法不需要修改模型權重或訓練流程，可作為推論引擎的快取策略插件。論文同時指出，對於長度差異極大的請求組合，稀疏快取的效益會顯著下降，此時 speculative decoding 等其他方法可能更為適合。

原始來源：arXiv:2605.05219

End of article

Cola DLM：連續潛空間擴散語言模型挑戰自回歸正統，2B 規模下展現強勁 Scaling

核心架構

規格細節

影響範圍

Skill1：統一強化學習框架同步演化 Agent 的技能選擇、執行與萃取三能力

原本的問題

採用的方法

實際效果

混合架構 LLM 的稀疏前綴快取：Checkpoint 最佳化降低遞迴層記憶體開銷

核心架構差異

規格細節

影響範圍

More on this topic