2026-06-11 — 衛星影像生成三維城市、快手開源 MoE 長視頻模型、LLM 雙角色自舉框架

ABot-Earth 0.5：以衛星影像生成大範圍無縫三維城市場景

arXiv · 2026-06-08

阿里巴巴高德地圖電腦視覺實驗室（Amap-cvlab）於 2026 年 6 月 8 日提交論文 arXiv:2606.09967，提出以地理參考衛星影像為唯一輸入、自動生成大範圍無縫三維場景的生成框架 ABot-Earth 0.5。論文的核心主張是以極低成本與高效率的方式，取代傳統需要無人機或車載 LiDAR 的城市級三維重建流程。

背景

傳統城市三維重建依賴密集的地面或空中採集設備，資料取得成本高、部署區域受限。衛星正射影像雖覆蓋面廣且隨手可得，但從受限視角推斷三維幾何至今仍是難題，主要障礙在於建築立面遮擋以及地面紋理與高程之間的歧義。ABot-Earth 0.5 的目標便是讓這類成本低廉的二維衛星資料直接轉化為可用的三維場景。

核心方法

ABot-Earth 0.5 以 3D Gaussian Splatting（3DGS） 作為三維場景表示骨幹，以真實城市三維重建資料進行訓練，讓模型學習從衛星正射圖到三維高斯點雲的生成映射。為支援不同應用場景的渲染需求，框架引入階層式細節層次（Level-of-Detail，LoD）結構，使生成場景能夠在網頁端即時視覺化，無需專用繪圖硬體。

框架主要由以下元件構成：

以地理參考衛星影像為條件的生成模組
基於 3DGS 的三維場景合成管線，訓練資料來自真實城市重建
階層式 LoD 結構，支援多尺度網頁視覺化
針對具身 AI（Embodied AI）任務（如 UAV 導航）的場景匯出介面

實驗結果

論文報告，ABot-Earth 0.5 每平方公里的三維生成時間不超過 10 分鐘，相較於傳統多視角重建管線大幅縮短。生成場景在視覺保真度與幾何一致性上達到可支援無人機路徑規劃與模擬的水準，驗證了以低成本衛星影像替代高成本採集裝置進行城市建模的可行性。

原始來源：arXiv:2606.09967

Kwai Keye-VL-2.0：面向長視頻理解與多智能體協作的開源 MoE 多模態基礎模型

arXiv · 2026-06-09

快手 Kwai Keye 團隊於 2026 年 6 月 9 日提交技術報告 arXiv:2606.10651，發布開源視覺語言模型 Keye-VL-2.0。該模型以混合專家（Mixture-of-Experts，MoE）架構為基礎，聚焦長視頻理解與多智能體協作兩大能力方向，並以完整開源形式釋出。

核心方法

Keye-VL-2.0 的關鍵設計是將稀疏注意力機制（Sparse Attention）引入 MoE 多模態架構，以支援超長上下文的處理，同時避免計算量隨序列長度線性暴增。長視頻往往包含數千幀，稠密注意力在此場景下代價極高，稀疏化策略因此成為能否實用部署的決定性因素。

訓練方面，論文採用知識蒸餾（Knowledge Distillation）應對 MoE 訓練中常見的負載不均與收斂不穩定問題。模型能力涵蓋三個主軸：

視頻語義理解：對長達數分鐘乃至更長視頻進行語義問答與摘要生成
時序分析：定位事件邊界、追蹤跨幀物件狀態變化
智能體協作：支援多個 AI agent 分工處理不同視頻片段後進行聯合推理

實驗結果

根據技術報告，Keye-VL-2.0 在多項長視頻理解基準上取得具競爭力的成績，在計算效率與模型品質之間取得顯著平衡。完整開源釋出使學術社群與工業界均可在此基礎上進行微調與二次開發，尤其適合需要大規模處理短視頻平台海量內容的應用場景。

原始來源：arXiv:2606.10651

Role-Agent：讓單一 LLM 同時扮演智能體與環境的雙角色自舉框架

arXiv · 2026-06-09

來自多所機構的研究者於 2026 年 6 月 9 日提交論文 arXiv:2606.10917，提出 Role-Agent 框架，讓單一 LLM 同時扮演智能體（Agent）與環境（World）兩種角色，透過自我對弈式的共同演化（co-evolution）提升推理與決策能力，無需依賴外部環境模擬器。

背景

現有 LLM Agent 訓練流程通常依賴外部模擬環境提供過程獎勵（process reward），環境建構成本高且領域遷移困難。若能讓 LLM 本身兼任環境角色、自行生成訓練信號，便可大幅降低對外部資源的依賴，同時實現更靈活的自我迭代改進。

核心方法

Role-Agent 由兩個互補機制組成，交替運作形成雙角色共演化迴圈：

World-In-Agent（WIA）：LLM 在執行 Agent 動作的同時預測後續狀態轉移，以此產生密集的過程獎勵信號，完全不依賴外部環境。
Agent-In-World（AIW）：LLM 切換至「世界」視角，分析 Agent 的失敗模式，並據此重塑（reshape）訓練資料分佈，使後續訓練集中於困難樣本。

兩個機制交替驅動，實現自舉式（bootstrapped）能力提升，每輪迭代後 Agent 與環境模擬能力同步增強。

實驗結果

論文在多個推理與決策基準上驗證 Role-Agent，相對強基線平均提升超過 4%，且提升效果在不同任務類型上具備一致性。

機制	角色	功能
World-In-Agent（WIA）	LLM 扮演 Agent	預測狀態轉移，生成過程獎勵
Agent-In-World（AIW）	LLM 扮演 World	分析失敗模式，重塑訓練資料分佈
整體效果	雙角色共演化	對強基線平均提升 >4%

原始來源：arXiv:2606.10917

End of article

ABot-Earth 0.5：以衛星影像生成大範圍無縫三維城市場景

背景

核心方法

實驗結果

Kwai Keye-VL-2.0：面向長視頻理解與多智能體協作的開源 MoE 多模態基礎模型

核心方法

實驗結果

Role-Agent：讓單一 LLM 同時扮演智能體與環境的雙角色自舉框架

背景

核心方法

實驗結果

More on this topic