AI 前沿 2026 年 5 月 3 日

2026-05-03 — AutoSP 長上下文訓練、Decoupled DiLoCo、LLM 拒絕幾何重構

AutoSP:以編譯器自動化長上下文 LLM 訓練的序列並行…

AutoSP:以編譯器自動化長上下文 LLM 訓練的序列並行

arXiv:2604.27089 · 2026-05-01

AutoSP(Automated Sequence Parallelism)是第一個自動將 LLM 訓練優化至更長上下文的編譯器方案(論文 13 頁,2026 年 4 月提交)。現有訓練函式庫在參數規模並行(ZeRO-3、Tensor Parallelism)上有成熟抽象,但缺乏對長上下文訓練的易用支援,迫使開發者手動重寫訓練系統並組合複雜的長上下文優化。

技術方法

AutoSP 採用兩個核心優化的組合:

  • 自動序列並行(Automated Sequence Parallelism):編譯器分析計算圖,自動在序列維度上切分注意力計算,將長序列分配至多個 GPU,與 Ring Attention 等手動方案相比不需要修改模型程式碼。
  • 長上下文感知梯度 checkpoint(Long-context Aware Activation Checkpointing):在序列並行模式下,activation 的記憶體佔用型態與標準訓練不同;AutoSP 依據長上下文的記憶體分佈重新分配 checkpoint 粒度,以最小的重計算代價換取最大的記憶體節省。

效能結果

相較於不使用序列並行的基線:

  • NVIDIA 硬體:可訓練的上下文長度提升最多 2.7×
  • AMD 硬體:提升最多 2.5×
  • 執行時吞吐量(runtime throughput)損失可忽略

論文目標場景為需要處理數萬至數十萬 token 的長上下文任務,例如長文件摘要、多輪對話歷史以及代碼庫級別的程式理解。

原始來源:arXiv:2604.27089


Decoupled DiLoCo:跨計算孤島的韌性分散式 AI 訓練

Google DeepMind Blog · 2026-04-29

Decoupled DiLoCo 是 Google DeepMind 發表的分散式訓練架構,將大型模型訓練拆分至彼此異步通信的計算「孤島」(island),在硬體故障頻繁的環境下維持高有效訓練率(goodput)。此架構已用於 Gemma 4 系列模型的實際訓練。

與 DiLoCo 的關係

原始 DiLoCo(Distributed Low-Communication Training)透過稀疏通信降低跨資料中心的頻寬需求。Decoupled DiLoCo 在此基礎上加入容錯設計:當某一孤島的硬體發生故障時,其他孤島無需暫停等待,訓練繼續進行。系統以 Google Pathways 架構為基礎,各獨立 learner 單元維持本地梯度更新,通信成本攤入較長的計算週期,支援混合硬體世代(不同版本 TPU 同時參與)。

實測數據(Gemma 4,8 個資料中心)

指標傳統同步方法Decoupled DiLoCo
跨 DC 頻寬198 Gbps0.84 Gbps
高故障率下 goodput27%88%
相對訓練速度基線超過 20×
模型準確度(基準任務)64.4%64.1%(差距可忽略)

頻寬從 198 Gbps 降至 0.84 Gbps(降幅超過 99%)意味著資料中心間僅需一般商用網路連線,不再依賴高速專線。

原始來源:Google DeepMind Blog


動態對抗微調重塑 LLM 拒絕幾何:從後層到前層的遷移

arXiv:2604.27019 · 2026-05-01

這篇論文對 7B 參數語言模型施以 R2D2 風格的動態對抗微調(Dynamic Adversarial Fine-Tuning),透過對模型內部表示幾何的分析,揭示安全訓練不是強化已有的拒絕機制,而是改變拒絕機制在網路中的物理位置(Hacker News 84 點)。

主要發現

研究追蹤了 HarmBench ASR(Attack Success Rate)在訓練步數中的演化:R2D2 在步驟 50 和 100 將固定來源的 ASR 壓至 0.000(完美拒絕);步驟 250 上升至 0.035,步驟 500 進一步升至 0.250。這種鬆動不是線性退化,而伴隨著拒絕方向在層次上的結構性重組。

幾何機制

在步驟 100 之前,模型在後期層(late-layer)維持一個「可容許載體」(admissible carrier)作為拒絕方向;步驟 100 之後,此載體遷移至早期層(early-layer carrier)。整個過程中,有效秩(effective rank)保持在 1.23–1.27,顯示拒絕機制始終在一個極低維的表示空間中運作,支持「拒絕由單一方向介導」的假說,並表明對抗訓練的作用是重新定位而非強化這個方向。

局限性

論文的結論僅適用於單一骨幹模型在固定來源攻擊(fixed-source attacks)下的行為,無法直接推廣至其他架構或遷移攻擊場景。

原始來源:arXiv:2604.27019


End of article
0
Would love your thoughts, please comment.x
()
x