AI 前沿 2026 年 6 月 8 日

2026-06-08 — NVIDIA Cosmos 3 Physical AI、合成資料 SIR 崩潰模型、TITO Agentic RL

primary=https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai primary=https://arxiv.org/abs/2606.05168 primary=https://huggingface.co/blog/huggingface/tito

NVIDIA Cosmos 3:首個開源物理 AI 全模態模型,Mixture-of-Transformers 架構統一推理與生成

Hugging Face Blog · 2026-06-01

NVIDIA 於 2026-06-01 在 Hugging Face 上發布 Cosmos 3,定位為「第一個開源 omni-model for Physical AI」,以單一 Mixture-of-Transformers(MoT)架構同時處理文字、圖像、影片、音訊與動作序列,並在一次前向傳遞中輸出多種模態。

規格細節

Cosmos 3 分兩個規格:Cosmos 3 Nano(16B = 8B reasoner + 8B generator)針對工作站級 GPU(如 RTX PRO 6000);Cosmos 3 Super(64B = 32B + 32B)供大規模合成資料生成使用,需 Hopper 或 Blackwell 架構。

MoT 的設計將輸入分為自回歸子序列(AR)與擴散子序列(DM),兩者共享 attention 但使用獨立參數集,讓 token 預測與影片生成在同一運算圖中進行。支援任務包括:

  • 從文字、圖像或影片生成連貫物理世界影片(world generation)
  • 運動、因果關係、空間關係推理(physical reasoning)
  • Forward/inverse dynamics 建模,直接輸出機器人動作序列
  • 機器人策略生成,適用倉儲安全、自駕車、人體動作模擬

核心改動

相較於先前的 World Foundation Model 系列,Cosmos 3 最大突破在於廢除了單一任務的多模型部署需求。傳統 Physical AI pipeline 需要獨立的 VLM 做感知、獨立的生成模型做資料增強、獨立的 policy network 輸出動作,Cosmos 3 試圖將這三個角色合一。模型以 Diffusers 整合發布,支援標準 Hugging Face API 調用。

影響範圍

Cosmos 3 Nano 的工作站部署門檻使其可用於機器人學研究的合成訓練資料生成,不需要 datacenter GPU。NVIDIA 明確定位為「合成資料引擎」——以物理上合理的影片增強真實世界的稀缺機器人訓練資料。開源授權允許商業使用,但合成資料的偏差累積與 model collapse 風險仍是活躍研究問題。

原始來源:Hugging Face: NVIDIA Cosmos 3


合成資料污染的流行病學:雙層 SIR 模型量化模型崩潰的傳播動力學

arXiv cs.LG · 2026-06-08

Xiangyu Wang 在 arXiv 發表 2606.05168,將流行病學的 SIR(Susceptible-Infected-Recovered)框架引入 AI 訓練資料污染問題,建立了一個雙層耦合動態系統,同時對「資料語料庫」與「AI 模型群體」建模,量化合成資料在兩層間的交叉傳染。

核心改動

傳統 model collapse 研究多以實驗觀察描述退化現象,缺乏可微分的動力學方程。本文建立的雙層 SIR/SIRS 平均場模型將兩個耦合系統形式化:資料層(語料庫中合成 vs 真實文件的比例)與模型層(訓練於不同污染程度資料的模型)通過跨層傳播率互相影響。

基本再生數(Basic Reproduction Number)以 Next Generation Matrix 推導:

R₀ = √(β_D × β_M / [(γ_D + μ_D)(γ_M + μ_M)])

R₀ > 1 表示污染會持續擴散(supercritical),三種校準情境均觀測到此狀態。Sobol 敏感性分析指出合成文字偵測能力是最高槓桿的介入點——比多樣化資料來源更有效。

規格細節

  • 192 次 GPT-2 實驗驗證劑量-反應(dose-response)退化模式
  • 1,088 次來源多樣性實驗顯示多源混合在高污染比例下有保護效果,但低污染時效果有限
  • 代理人基模型(agent-based model)驗證平均場一致性,R² > 0.96(密集網絡條件下)

影響範圍

此模型提供理論框架,其政策意涵清晰:若 R₀ > 1,僅靠多樣化資料來源不足以阻止崩潰,需要在採集端部署主動偵測。「群體免疫」閾值(足夠比例的真實資料保持 R₀ < 1)是後續研究的自然延伸。對建立爬蟲或資料管線的工程師,此研究為「為何過濾 AI 生成內容比篩選來源更重要」提供了定量基礎。

原始來源:arXiv:2606.05168


TITO:Agentic RL 的 Token-In-Token-Out 原則,修正多輪訓練的 tokenization 漂移問題

Hugging Face Blog · 2026-05-30

Hugging Face 於 2026-05-30 發表 TITO(Token-In, Token-Out),提出一條訓練多輪工具呼叫 agent 的強化學習規則:從不在解碼後重新對 token 編碼。這個約束解決了主流 agentic RL 框架的靜默數學錯誤——梯度被計算在模型從未真正取樣過的 token 序列上。

原本的問題

問題的根源是 BPE(Byte Pair Encoding)的非單射性:多個 token 序列可以解碼為同一字串,但反向編碼未必還原原序列。標準 agentic RL 訓練迴圈在 episode 結束後重新渲染完整對話歷史並重新 tokenize,此時編碼結果與原始取樣序列往往不同,梯度因此計算在「幻影 token」上,造成靜默的數學污染。

採用的方法

TITO 的做法是維護一個連續的 token buffer 作為唯一事實來源:

  • 模型取樣的 token 直接累積進 buffer,不解碼
  • 工具路由決策以最小化解碼完成(只取必要字元判斷要呼叫哪個工具)
  • 工具回應以 delta 計算方式注入:對話以含/不含工具回應各渲染一次,取差集 token ID 後串接

此設計要求 chat template 滿足「prefix-preserving for tool messages」:加入工具回應後,完整渲染的前段必須與無工具版本逐 byte 相同。作者提供 12 行 property test 驗證此條件;測試 19 個主流開源模型,18 個已符合。

影響範圍

TITO 對任何使用多輪 RL 訓練 tool-calling agent 的工程師都直接適用。不需要修改模型架構或 tokenizer,只需調整訓練迴圈的 buffer 管理邏輯。最大受益場景是工具回應較長(搜尋結果、程式碼輸出)且多輪對話 episode 較深的訓練任務,此時 tokenization 漂移的累積效應最顯著。history rewriting(如 clear_thinking、對話壓縮)是 TITO 的例外情境,需另行處理。

原始來源:Hugging Face: TITO


End of article
0
Would love your thoughts, please comment.x
()
x