2026-05-03 — AutoSP 長上下文訓練、Decoupled DiLoCo、LLM 拒絕幾何重構

AutoSP：以編譯器自動化長上下文 LLM 訓練的序列並行

arXiv:2604.27089 · 2026-05-01

AutoSP（Automated Sequence Parallelism）是第一個自動將 LLM 訓練優化至更長上下文的編譯器方案（論文 13 頁，2026 年 4 月提交）。現有訓練函式庫在參數規模並行（ZeRO-3、Tensor Parallelism）上有成熟抽象，但缺乏對長上下文訓練的易用支援，迫使開發者手動重寫訓練系統並組合複雜的長上下文優化。

技術方法

AutoSP 採用兩個核心優化的組合：

自動序列並行（Automated Sequence Parallelism）：編譯器分析計算圖，自動在序列維度上切分注意力計算，將長序列分配至多個 GPU，與 Ring Attention 等手動方案相比不需要修改模型程式碼。
長上下文感知梯度 checkpoint（Long-context Aware Activation Checkpointing）：在序列並行模式下，activation 的記憶體佔用型態與標準訓練不同；AutoSP 依據長上下文的記憶體分佈重新分配 checkpoint 粒度，以最小的重計算代價換取最大的記憶體節省。

效能結果

相較於不使用序列並行的基線：

NVIDIA 硬體：可訓練的上下文長度提升最多 2.7×
AMD 硬體：提升最多 2.5×
執行時吞吐量（runtime throughput）損失可忽略

論文目標場景為需要處理數萬至數十萬 token 的長上下文任務，例如長文件摘要、多輪對話歷史以及代碼庫級別的程式理解。

原始來源：arXiv:2604.27089

Decoupled DiLoCo：跨計算孤島的韌性分散式 AI 訓練

Google DeepMind Blog · 2026-04-29

Decoupled DiLoCo 是 Google DeepMind 發表的分散式訓練架構，將大型模型訓練拆分至彼此異步通信的計算「孤島」（island），在硬體故障頻繁的環境下維持高有效訓練率（goodput）。此架構已用於 Gemma 4 系列模型的實際訓練。

與 DiLoCo 的關係

原始 DiLoCo（Distributed Low-Communication Training）透過稀疏通信降低跨資料中心的頻寬需求。Decoupled DiLoCo 在此基礎上加入容錯設計：當某一孤島的硬體發生故障時，其他孤島無需暫停等待，訓練繼續進行。系統以 Google Pathways 架構為基礎，各獨立 learner 單元維持本地梯度更新，通信成本攤入較長的計算週期，支援混合硬體世代（不同版本 TPU 同時參與）。

實測數據（Gemma 4，8 個資料中心）

指標	傳統同步方法	Decoupled DiLoCo
跨 DC 頻寬	198 Gbps	0.84 Gbps
高故障率下 goodput	27%	88%
相對訓練速度	基線	超過 20×
模型準確度（基準任務）	64.4%	64.1%（差距可忽略）

頻寬從 198 Gbps 降至 0.84 Gbps（降幅超過 99%）意味著資料中心間僅需一般商用網路連線，不再依賴高速專線。

原始來源：Google DeepMind Blog

動態對抗微調重塑 LLM 拒絕幾何：從後層到前層的遷移

arXiv:2604.27019 · 2026-05-01

這篇論文對 7B 參數語言模型施以 R2D2 風格的動態對抗微調（Dynamic Adversarial Fine-Tuning），透過對模型內部表示幾何的分析，揭示安全訓練不是強化已有的拒絕機制，而是改變拒絕機制在網路中的物理位置（Hacker News 84 點）。

主要發現

研究追蹤了 HarmBench ASR（Attack Success Rate）在訓練步數中的演化：R2D2 在步驟 50 和 100 將固定來源的 ASR 壓至 0.000（完美拒絕）；步驟 250 上升至 0.035，步驟 500 進一步升至 0.250。這種鬆動不是線性退化，而伴隨著拒絕方向在層次上的結構性重組。

幾何機制

在步驟 100 之前，模型在後期層（late-layer）維持一個「可容許載體」（admissible carrier）作為拒絕方向；步驟 100 之後，此載體遷移至早期層（early-layer carrier）。整個過程中，有效秩（effective rank）保持在 1.23–1.27，顯示拒絕機制始終在一個極低維的表示空間中運作，支持「拒絕由單一方向介導」的假說，並表明對抗訓練的作用是重新定位而非強化這個方向。

局限性

論文的結論僅適用於單一骨幹模型在固定來源攻擊（fixed-source attacks）下的行為，無法直接推廣至其他架構或遷移攻擊場景。

原始來源：arXiv:2604.27019

End of article