2026-06-08 — NVIDIA Cosmos 3 Physical AI、合成資料 SIR 崩潰模型、TITO Agentic RL

NVIDIA Cosmos 3：首個開源物理 AI 全模態模型，Mixture-of-Transformers 架構統一推理與生成

Hugging Face Blog · 2026-06-01

NVIDIA 於 2026-06-01 在 Hugging Face 上發布 Cosmos 3，定位為「第一個開源 omni-model for Physical AI」，以單一 Mixture-of-Transformers（MoT）架構同時處理文字、圖像、影片、音訊與動作序列，並在一次前向傳遞中輸出多種模態。

規格細節

Cosmos 3 分兩個規格：Cosmos 3 Nano（16B = 8B reasoner + 8B generator）針對工作站級 GPU（如 RTX PRO 6000）；Cosmos 3 Super（64B = 32B + 32B）供大規模合成資料生成使用，需 Hopper 或 Blackwell 架構。

MoT 的設計將輸入分為自回歸子序列（AR）與擴散子序列（DM），兩者共享 attention 但使用獨立參數集，讓 token 預測與影片生成在同一運算圖中進行。支援任務包括：

從文字、圖像或影片生成連貫物理世界影片（world generation）
運動、因果關係、空間關係推理（physical reasoning）
Forward/inverse dynamics 建模，直接輸出機器人動作序列
機器人策略生成，適用倉儲安全、自駕車、人體動作模擬

核心改動

相較於先前的 World Foundation Model 系列，Cosmos 3 最大突破在於廢除了單一任務的多模型部署需求。傳統 Physical AI pipeline 需要獨立的 VLM 做感知、獨立的生成模型做資料增強、獨立的 policy network 輸出動作，Cosmos 3 試圖將這三個角色合一。模型以 Diffusers 整合發布，支援標準 Hugging Face API 調用。

影響範圍

Cosmos 3 Nano 的工作站部署門檻使其可用於機器人學研究的合成訓練資料生成，不需要 datacenter GPU。NVIDIA 明確定位為「合成資料引擎」——以物理上合理的影片增強真實世界的稀缺機器人訓練資料。開源授權允許商業使用，但合成資料的偏差累積與 model collapse 風險仍是活躍研究問題。

原始來源：Hugging Face: NVIDIA Cosmos 3

合成資料污染的流行病學：雙層 SIR 模型量化模型崩潰的傳播動力學

arXiv cs.LG · 2026-06-08

Xiangyu Wang 在 arXiv 發表 2606.05168，將流行病學的 SIR（Susceptible-Infected-Recovered）框架引入 AI 訓練資料污染問題，建立了一個雙層耦合動態系統，同時對「資料語料庫」與「AI 模型群體」建模，量化合成資料在兩層間的交叉傳染。

核心改動

傳統 model collapse 研究多以實驗觀察描述退化現象，缺乏可微分的動力學方程。本文建立的雙層 SIR/SIRS 平均場模型將兩個耦合系統形式化：資料層（語料庫中合成 vs 真實文件的比例）與模型層（訓練於不同污染程度資料的模型）通過跨層傳播率互相影響。

基本再生數（Basic Reproduction Number）以 Next Generation Matrix 推導：

R₀ = √(β_D × β_M / [(γ_D + μ_D)(γ_M + μ_M)])

R₀ > 1 表示污染會持續擴散（supercritical），三種校準情境均觀測到此狀態。Sobol 敏感性分析指出合成文字偵測能力是最高槓桿的介入點——比多樣化資料來源更有效。

規格細節

192 次 GPT-2 實驗驗證劑量-反應（dose-response）退化模式
1,088 次來源多樣性實驗顯示多源混合在高污染比例下有保護效果，但低污染時效果有限
代理人基模型（agent-based model）驗證平均場一致性，R² > 0.96（密集網絡條件下）

影響範圍

此模型提供理論框架，其政策意涵清晰：若 R₀ > 1，僅靠多樣化資料來源不足以阻止崩潰，需要在採集端部署主動偵測。「群體免疫」閾值（足夠比例的真實資料保持 R₀ < 1）是後續研究的自然延伸。對建立爬蟲或資料管線的工程師，此研究為「為何過濾 AI 生成內容比篩選來源更重要」提供了定量基礎。

原始來源：arXiv:2606.05168

TITO：Agentic RL 的 Token-In-Token-Out 原則，修正多輪訓練的 tokenization 漂移問題

Hugging Face Blog · 2026-05-30

Hugging Face 於 2026-05-30 發表 TITO（Token-In, Token-Out），提出一條訓練多輪工具呼叫 agent 的強化學習規則：從不在解碼後重新對 token 編碼。這個約束解決了主流 agentic RL 框架的靜默數學錯誤——梯度被計算在模型從未真正取樣過的 token 序列上。

原本的問題

問題的根源是 BPE（Byte Pair Encoding）的非單射性：多個 token 序列可以解碼為同一字串，但反向編碼未必還原原序列。標準 agentic RL 訓練迴圈在 episode 結束後重新渲染完整對話歷史並重新 tokenize，此時編碼結果與原始取樣序列往往不同，梯度因此計算在「幻影 token」上，造成靜默的數學污染。

採用的方法

TITO 的做法是維護一個連續的 token buffer 作為唯一事實來源：

模型取樣的 token 直接累積進 buffer，不解碼
工具路由決策以最小化解碼完成（只取必要字元判斷要呼叫哪個工具）
工具回應以 delta 計算方式注入：對話以含/不含工具回應各渲染一次，取差集 token ID 後串接

此設計要求 chat template 滿足「prefix-preserving for tool messages」：加入工具回應後，完整渲染的前段必須與無工具版本逐 byte 相同。作者提供 12 行 property test 驗證此條件；測試 19 個主流開源模型，18 個已符合。

影響範圍

TITO 對任何使用多輪 RL 訓練 tool-calling agent 的工程師都直接適用。不需要修改模型架構或 tokenizer，只需調整訓練迴圈的 buffer 管理邏輯。最大受益場景是工具回應較長（搜尋結果、程式碼輸出）且多輪對話 episode 較深的訓練任務，此時 tokenization 漂移的累積效應最顯著。history rewriting（如 clear_thinking、對話壓縮）是 TITO 的例外情境，需另行處理。

原始來源：Hugging Face: TITO

End of article

NVIDIA Cosmos 3：首個開源物理 AI 全模態模型，Mixture-of-Transformers 架構統一推理與生成

規格細節

核心改動

影響範圍

合成資料污染的流行病學：雙層 SIR 模型量化模型崩潰的傳播動力學

核心改動

規格細節

影響範圍

TITO：Agentic RL 的 Token-In-Token-Out 原則，修正多輪訓練的 tokenization 漂移問題

原本的問題

採用的方法

影響範圍

More on this topic