AI 前沿 2026 年 5 月 9 日

2026-05-09 — Cola DLM 連續潛空間擴散 LM、Skill1 統一 RL Agent、混合架構稀疏前綴快取

primary=https://arxiv.org/abs/2605.06548 primary=https://arxiv.org/abs/2605.06130 primary=https://arxiv.org/abs/2605.05219

Cola DLM:連續潛空間擴散語言模型挑戰自回歸正統,2B 規模下展現強勁 Scaling

arXiv cs.CL · 2026-05-08

來自多所研究機構的團隊於 2026 年 5 月提出 Cola DLM(Continuous Latent Diffusion Language Model),以階層式連續潛空間擴散取代傳統的 token-by-token 自回歸生成,在 8 個標準基準測試中與同規模自回歸模型及 LLaDA 比較,並記錄了可信的 scaling 曲線至約 2000 EFLOPs。

核心架構

Cola DLM 的生成流程分為兩個階段:首先,一個 Text VAE 將輸入文本壓縮為連續潛向量序列;其次,一個 block-causal Diffusion Transformer(DiT)在潛空間中學習語意先驗分佈,生成時從高斯噪聲逐步去噪至目標潛向量,最後由 VAE decoder 解碼回文本。

與 LLaDA 等離散擴散語言模型的差異在於:Cola DLM 在真正的連續空間操作,而非 mask token 的離散替換。這讓模型的生成過程更接近圖像擴散模型的哲學——在語意層組織全局結構,再在局部層填充細節——而非強制要求左到右的順序依賴。

規格細節

論文以 ~2B 參數規模對比自回歸 baseline 與 LLaDA,在 8 個評估基準(包含 reasoning 與生成品質任務)上的得分具競爭力。作者特別強調,perplexity 對非自回歸模型的評估有本質侷限——Cola DLM 不建模 token 條件機率,因此以生成品質指標(如 GenPPL)作為更公平的比較維度。

Scaling 實驗顯示 loss 隨 compute 預算的提升呈現穩定下降趨勢,log-linear scaling 行為在連續潛空間擴散架構下得以保留,這是該類方法此前缺乏的重要實證支撐。

影響範圍

Cola DLM 為非自回歸語言模型提供了一條架構上更完整的路線:VAE 壓縮解決了離散擴散中的 token 粒度問題,連續空間使擴散過程的數學工具可直接應用。當前限制是推論速度——多步去噪的 wall-clock 時間仍高於自回歸模型的單次前向傳遞,需要 DDIM/DDPM 加速或 consistency distillation 進一步優化。arXiv ID 2605.06548

原始來源:arXiv:2605.06548


Skill1:統一強化學習框架同步演化 Agent 的技能選擇、執行與萃取三能力

arXiv cs.LG · 2026-05-08

Skill1(arXiv 2605.06130)提出一個單一 RL 策略框架,以共享目標函式同時訓練技能選擇(selection)、技能執行(utilization)與技能萃取(distillation)三項能力,解決先前方法分開最佳化各子任務時產生的目標衝突問題,在 ALFWorld 與 WebShop 基準上超越現有 skill-based 與 RL baseline。

原本的問題

語言模型 agent 的技能函式庫(skill library)方法將 agent 能力拆分為可重用的技能單元,以提高跨任務遷移效率。然而現有方法(如 Voyager、DEPS)對三個子問題分別建立獨立的獎勵訊號:選擇好技能、用好技能、從成功經驗萃取新技能——三者常因不同的最佳化目標而相互干擾,導致技能函式庫品質難以持續提升。

採用的方法

Skill1 的核心設計是統一的 task-outcome 信號分解:以任務結果的低頻趨勢(long-term trend)作為技能選擇的信用分配(credit),以結果的高頻波動(high-frequency variation)作為技能萃取的信用分配。執行能力則透過 conditioning 在選定技能下最大化完成率。三者共用一個策略網路,但接收不同的 credit 信號,避免梯度衝突同時保留功能分工

Ablation study 顯示移除任一 credit 信號均顯著降低性能,驗證三者協同演化的必要性。

實際效果

  • ALFWorld(家居任務導航):超越 DEPS 等先前 SOTA skill-based 方法
  • WebShop(電商導航 agent):在 instruction-following 複雜任務上同樣取得改善
  • 技能函式庫品質隨訓練步數單調成長,無收斂後退化現象

原始來源:arXiv:2605.06130


混合架構 LLM 的稀疏前綴快取:Checkpoint 最佳化降低遞迴層記憶體開銷

arXiv cs.LG · 2026-05-08

前綴快取(prefix caching)是降低 LLM 服務推論成本的重要機制,但 SSM(State Space Model)與 Mamba 等遞迴架構的混合模型(hybrid model)無法直接套用傳統的 KV cache 重用邏輯。arXiv 2605.05219 提出稀疏前綴快取(Sparse Prefix Caching),以離散 checkpoint 儲存遞迴狀態,並以動態規劃最佳化 checkpoint 位置,在有限記憶體預算下最大化快取命中率。

核心架構差異

純 Transformer 的 KV cache 直接儲存每個 token 的 key/value 張量,快取命中時從指定位置繼續解碼即可。遞迴層(如 Mamba 的 SSM)的狀態是一個固定大小的壓縮摘要,無法任意從中間 token 恢復——必須從某個已儲存的 checkpoint 重新計算至目標位置,因此快取策略本質上是在「儲存更多 checkpoint(較少重計算)」與「節省記憶體(允許更多快取命中)」之間取捨。

規格細節

論文將 checkpoint 位置問題形式化為一個最佳化問題:給定請求分布(prefix 共用長度的分布)與記憶體預算 M,以 O(NM) 動態規劃演算法找出最小化平均重計算量的 checkpoint 集合。相較於等距 block caching 等啟發式方法,distribution-aware 的 DP 解在 checkpoint 數量受限時明顯佔優,在 QuALITY 與 System Prompts 資料集上均有實測驗證。

影響範圍

隨著 Mamba2、Jamba 等 SSM-Transformer hybrid 模型進入生產部署,現有 vLLM、SGLang 等推論框架的 prefix caching 模組需要對應的 hybrid-aware 更新。本文的方法不需要修改模型權重或訓練流程,可作為推論引擎的快取策略插件。論文同時指出,對於長度差異極大的請求組合,稀疏快取的效益會顯著下降,此時 speculative decoding 等其他方法可能更為適合。

原始來源:arXiv:2605.05219


End of article
0
Would love your thoughts, please comment.x
()
x