AI 前沿 2026 年 5 月 31 日

2026-05-31 — Qwen-VLA 機器人 VLA、災難性遺忘機制分析、AgentDoG 1.5 安全護欄

primary=https://arxiv.org/abs/2605.30280 primary=https://arxiv.org/abs/2605.28860 primary=https://arxiv.org/abs/2605.29801

Qwen-VLA:統一操作、導航與軌跡預測的機器人視覺-語言-動作模型

arxiv.org / Alibaba Qwen · 2026-05-30

阿里巴巴 Qwen 團隊發表 arXiv:2605.30280,提出 Qwen-VLA,一個統一多種機器人任務、環境與機體形態(embodiment)的視覺-語言-動作(VLA)模型。現有 VLA 模型通常為特定任務或特定機器人平台設計,Qwen-VLA 以單一模型覆蓋操作(manipulation)、導航(navigation)與軌跡預測三大類任務。

核心架構

Qwen-VLA 在 Qwen 的視覺語言底座上加入 DiT-based action decoder,負責生成連續動作序列與運動軌跡。關鍵創新在於 embodiment-aware prompt conditioning:以自然語言描述目前機器人平台的形態規格(關節數量、控制頻率、末端效應器類型),讓同一個模型在不同機體上自動適應,無需針對每個平台重新訓練。

訓練資料跨越機器人操作軌跡(仿真 + 真實)、人類第一人稱示範影片、視覺語言導航資料(R2R、RxR)以及輔助視覺問答資料。

Benchmark 結果

任務類型Benchmark成績
操作LIBERO97.9%
操作Simpler-WidowX73.7%
導航R2R OSR69.0%
導航RxR SR59.6%
真實世界 OODALOHA avg.76.9%
零樣本動態操作DOMINO26.6%

DOMINO 的 26.6% 零樣本成績特別值得注意,DOMINO 要求在訓練中從未見過的動態擾動場景下操作,這顯示 embodiment-aware conditioning 確實帶來跨場景泛化能力。

影響範圍

Qwen 系列在 open-weight 社群有廣泛使用,若 Qwen-VLA 依慣例開放權重,將是繼 OpenVLA 之後最具影響力的可微調機器人 VLA 基礎模型之一,顯著降低特定機器人任務微調的門檻。

原始來源:arXiv:2605.30280


災難性遺忘的機制根源:RL 細調為何比 SFT 更能保留電路結構

arxiv.org · 2026-05-29

arXiv:2605.28860 提出「差異化電路脆弱性」(differential circuit vulnerability)框架,從機制可解釋性的角度解釋為何強化學習(RL)細調比監督微調(SFT)在新任務學習時更少產生災難性遺忘(catastrophic forgetting)。

核心發現

研究以 Qwen2.5-3B-Instruct 為實驗對象,針對科學問答任務分別進行 SFT 與 GRPO 兩種方式的細調,並以 mechanistic interpretability 工具逐 attention head 追蹤電路變化:

  • SFT 適應速度更快,但對模型內部計算電路的破壞更嚴重
  • RL(GRPO)適應速度較慢,但保留了更大比例的 base model 電路結構
  • 電路保留程度與先前能力的維持程度呈正相關

為何 RL 保留更多電路

研究者推測 RL 的 reward signal 提供更稀疏的梯度更新:每個 rollout 只有最終結果正確性影響權重,相對於 SFT 對每個 token 計算 cross-entropy loss 的密集更新,RL 的更新更局部化,對非目標電路的干擾更小。這為「RL 細調遺忘少」提供了首個機制層面的解釋,而非僅是實驗現象的觀察。

影響範圍

若 SFT 階段不可避免地破壞重要電路,可考慮在 SFT 後以少量 RL 步驟「修復」關鍵電路。此外,研究方法——以電路完整性作為細調品質的量化指標——可望成為評估多輪細調安全性的新工具。

原始來源:arXiv:2605.28860


AgentDoG 1.5:以 1,000 個樣本訓練的輕量 AI 代理安全護欄框架

arxiv.org / Shanghai AI Lab · 2026-05-30

上海人工智能實驗室發表 arXiv:2605.29801,提出 AgentDoG 1.5,一個為代理場景設計的輕量對齊框架。AgentDoG 訓練 0.8B 至 8B 參數的安全模型,作為即時安全護欄(online guardrail),在計算開銷比 Docker-level 環境低兩個數量級的前提下,提供與大型封閉模型相當的安全偵測能力。

技術方法

核心創新在於 taxonomy-guided data engine with influence-function purification:以代理特定的安全分類法(涵蓋程式碼執行、工具呼叫、跨代理攻擊等場景)引導資料生成,並使用影響函數(influence functions)過濾訓練資料中的高影響噪音樣本,使 ~1,000 個高品質樣本足以訓練出競爭力的安全模型。

安全分類法更新為代理特定風險,超越傳統 LLM 安全的詞彙風險評估,明確覆蓋:

  • 程式碼執行沙箱逃逸偵測
  • 工具呼叫參數注入攻擊識別
  • 跨代理協作中的提示注入傳播
  • 長序列行動鏈的目標偏移偵測

效能與部署

AgentDoG 1.5 以 training-free online guardrail 方式部署,不修改被保護代理的權重。在 OpenClaw 等進階代理系統的評估中,小模型(0.8B–8B)達到與大型封閉模型相當的安全偵測準確率,同時延遲可控。適合資源受限的代理部署環境,以及需要可審計安全層的企業場景。

原始來源:arXiv:2605.29801


End of article
0
Would love your thoughts, please comment.x
()
x