2026-05-31 — Qwen-VLA 機器人 VLA、災難性遺忘機制分析、AgentDoG 1.5 安全護欄

Qwen-VLA：統一操作、導航與軌跡預測的機器人視覺-語言-動作模型

arxiv.org / Alibaba Qwen · 2026-05-30

阿里巴巴 Qwen 團隊發表 arXiv:2605.30280，提出 Qwen-VLA，一個統一多種機器人任務、環境與機體形態（embodiment）的視覺-語言-動作（VLA）模型。現有 VLA 模型通常為特定任務或特定機器人平台設計，Qwen-VLA 以單一模型覆蓋操作（manipulation）、導航（navigation）與軌跡預測三大類任務。

核心架構

Qwen-VLA 在 Qwen 的視覺語言底座上加入 DiT-based action decoder，負責生成連續動作序列與運動軌跡。關鍵創新在於 embodiment-aware prompt conditioning：以自然語言描述目前機器人平台的形態規格（關節數量、控制頻率、末端效應器類型），讓同一個模型在不同機體上自動適應，無需針對每個平台重新訓練。

訓練資料跨越機器人操作軌跡（仿真 + 真實）、人類第一人稱示範影片、視覺語言導航資料（R2R、RxR）以及輔助視覺問答資料。

Benchmark 結果

任務類型	Benchmark	成績
操作	LIBERO	97.9%
操作	Simpler-WidowX	73.7%
導航	R2R OSR	69.0%
導航	RxR SR	59.6%
真實世界 OOD	ALOHA avg.	76.9%
零樣本動態操作	DOMINO	26.6%

DOMINO 的 26.6% 零樣本成績特別值得注意，DOMINO 要求在訓練中從未見過的動態擾動場景下操作，這顯示 embodiment-aware conditioning 確實帶來跨場景泛化能力。

影響範圍

Qwen 系列在 open-weight 社群有廣泛使用，若 Qwen-VLA 依慣例開放權重，將是繼 OpenVLA 之後最具影響力的可微調機器人 VLA 基礎模型之一，顯著降低特定機器人任務微調的門檻。

原始來源：arXiv:2605.30280

災難性遺忘的機制根源：RL 細調為何比 SFT 更能保留電路結構

arxiv.org · 2026-05-29

arXiv:2605.28860 提出「差異化電路脆弱性」（differential circuit vulnerability）框架，從機制可解釋性的角度解釋為何強化學習（RL）細調比監督微調（SFT）在新任務學習時更少產生災難性遺忘（catastrophic forgetting）。

核心發現

研究以 Qwen2.5-3B-Instruct 為實驗對象，針對科學問答任務分別進行 SFT 與 GRPO 兩種方式的細調，並以 mechanistic interpretability 工具逐 attention head 追蹤電路變化：

SFT 適應速度更快，但對模型內部計算電路的破壞更嚴重
RL（GRPO）適應速度較慢，但保留了更大比例的 base model 電路結構
電路保留程度與先前能力的維持程度呈正相關

為何 RL 保留更多電路

研究者推測 RL 的 reward signal 提供更稀疏的梯度更新：每個 rollout 只有最終結果正確性影響權重，相對於 SFT 對每個 token 計算 cross-entropy loss 的密集更新，RL 的更新更局部化，對非目標電路的干擾更小。這為「RL 細調遺忘少」提供了首個機制層面的解釋，而非僅是實驗現象的觀察。

影響範圍

若 SFT 階段不可避免地破壞重要電路，可考慮在 SFT 後以少量 RL 步驟「修復」關鍵電路。此外，研究方法——以電路完整性作為細調品質的量化指標——可望成為評估多輪細調安全性的新工具。

原始來源：arXiv:2605.28860

AgentDoG 1.5：以 1,000 個樣本訓練的輕量 AI 代理安全護欄框架

arxiv.org / Shanghai AI Lab · 2026-05-30

上海人工智能實驗室發表 arXiv:2605.29801，提出 AgentDoG 1.5，一個為代理場景設計的輕量對齊框架。AgentDoG 訓練 0.8B 至 8B 參數的安全模型，作為即時安全護欄（online guardrail），在計算開銷比 Docker-level 環境低兩個數量級的前提下，提供與大型封閉模型相當的安全偵測能力。

技術方法

核心創新在於 taxonomy-guided data engine with influence-function purification：以代理特定的安全分類法（涵蓋程式碼執行、工具呼叫、跨代理攻擊等場景）引導資料生成，並使用影響函數（influence functions）過濾訓練資料中的高影響噪音樣本，使 ~1,000 個高品質樣本足以訓練出競爭力的安全模型。

安全分類法更新為代理特定風險，超越傳統 LLM 安全的詞彙風險評估，明確覆蓋：

程式碼執行沙箱逃逸偵測
工具呼叫參數注入攻擊識別
跨代理協作中的提示注入傳播
長序列行動鏈的目標偏移偵測

效能與部署

AgentDoG 1.5 以 training-free online guardrail 方式部署，不修改被保護代理的權重。在 OpenClaw 等進階代理系統的評估中，小模型（0.8B–8B）達到與大型封閉模型相當的安全偵測準確率，同時延遲可控。適合資源受限的代理部署環境，以及需要可審計安全層的企業場景。

原始來源：arXiv:2605.29801

End of article

Qwen-VLA：統一操作、導航與軌跡預測的機器人視覺-語言-動作模型

核心架構

Benchmark 結果

影響範圍

災難性遺忘的機制根源：RL 細調為何比 SFT 更能保留電路結構

核心發現

為何 RL 保留更多電路

影響範圍

AgentDoG 1.5：以 1,000 個樣本訓練的輕量 AI 代理安全護欄框架

技術方法

效能與部署

More on this topic