2026-04-27 — DeepMind Decoupled DiLoCo、SWE-bench Verified 退場、Gemini Robotics-ER 1.6

DeepMind Decoupled DiLoCo：分散式 AI 訓練的韌性新框架

Google DeepMind Blog · 2026-04 (April)

Google DeepMind 發布 Decoupled DiLoCo，這是一個針對分散式大型模型訓練的新演算法框架，旨在解決跨資料中心訓練時因網路中斷、節點失效造成的韌性問題。

DiLoCo 背景

原始 DiLoCo（Distributed Local SGD with Communication）將訓練分為多個「島嶼（islands）」，每座島嶼本地執行多個步驟後再進行全局同步（outer optimizer step），大幅降低了跨資料中心的通訊頻寬需求。

Decoupled DiLoCo 的改進

Decoupled DiLoCo 進一步解耦（decouple）計算與通訊週期：各島嶼的本地訓練步驟（inner loop）與跨島梯度同步（outer loop）不再需要嚴格對齊。當某座島嶼因硬體故障或網路分區暫時離線時，其餘島嶼可繼續訓練，待其重新上線後進行非同步的外部梯度合併，而不是讓整個訓練作業暫停等待。

技術影響

此設計讓訓練叢集在面對 10–20% 節點失效率時仍能維持高利用率，對需要跨多個地理位置資料中心進行數月長訓練的前沿模型尤為重要。與傳統同步 SGD 相比，節點故障不再導致整體作業重啟，只影響單一島嶼的本地進度。

原始來源：DeepMind Blog – Decoupled DiLoCo

OpenAI 宣布停用 SWE-bench Verified：基準汙染與測試案例缺陷的全面剖析

OpenAI · 2026-02-23（HN 熱點 2026-04-27）

OpenAI 於 2026 年 2 月宣布不再以 SWE-bench Verified 作為前沿模型的程式碼能力評測基準，並推薦改用 SWE-bench Pro。此決定引發業界廣泛討論，暴露了當前 AI 編程評測體系的結構性問題。

兩大核心問題

測試案例品質缺陷：OpenAI 對 SWE-bench Verified 的問題集進行審計後發現，至少 59.4% 的問題存在有缺陷的測試案例——這些測試案例會拒絕功能上正確的提交（functionally correct solutions），導致模型得到不實的低分，評測結果失去參考價值。

訓練資料汙染（Contamination）：前沿模型的訓練資料可能包含 SWE-bench Verified 的問題與解答。OpenAI 以「考前給學生答案」類比此問題——模型在評測時可能只是在重現訓練時見過的解法，而非展示真實的推理能力。

SWE-bench Pro 的設計改進

SWE-bench Pro 在設計上針對上述問題做出改進：汙染問題較少（審計後無模型能完整重現金標答案）；測試案例品質更嚴格；難度更高，以反映真實的前沿編程挑戰。OpenAI 同時表示正與業界合作建立更強健的編程評測標準。

業界影響

SWE-bench Verified 曾是 2024–2025 年間最廣泛引用的 AI 程式碼能力基準，多家機構的模型排行榜均以此為依據。此決定迫使整個評測生態系重新審視「高分即強能力」的假設，以及如何設計能持續對抗訓練汙染的評測集。

原始來源：OpenAI – Why SWE-bench Verified no longer measures frontier coding capabilities

Gemini Robotics-ER 1.6：具身推理驅動的機器人實體任務執行

Google DeepMind Blog · 2026-04

Google DeepMind 發布 Gemini Robotics-ER 1.6，這是專為機器人應用設計的具身推理（embodied reasoning）模型，旨在讓機器人在物理環境中執行複雜、多步驟的現實任務。

具身推理的技術挑戰

通用語言/視覺模型在機器人應用上的核心挑戰是「具身差距（embodiment gap）」：模型需要理解空間關係、物理限制、時序依賴性，並將高層語意指令轉換為具體的動作序列。Gemini Robotics-ER 1.6 延伸 Gemini 的多模態推理能力，加入對三維空間、物件互動、任務規劃的顯式建模。

關鍵能力改進

相比前版本，ER 1.6 在長程任務規劃（long-horizon task planning）、工具使用（tool use in physical environments）、以及在非結構化環境下的泛化能力上有明顯提升。模型能夠處理部分可觀察（partial observability）的場景，當視覺輸入不足時主動請求額外感知。

部署生態

Gemini Robotics-ER 1.6 作為研究用模型發布，適用於在 Google 機器人平台上運行的實驗性應用，並提供 API 供學術研究合作者使用。

原始來源：DeepMind Blog – Gemini Robotics-ER 1.6

End of article