Sapiens2:Meta AI 以統一預訓練目標大幅提升人體視覺理解
arXiv / Meta AI (ICLR 2026) · 2026-04-23
Sapiens2 是 Meta AI 發布的人體中心視覺(human-centric vision)基礎模型系列(arXiv:2604.21681),已被 ICLR 2026 收錄。模型規模從 0.4B 至 5B 參數不等,原生支援 1K 解析度,並提供 4K 層級架構變體。
預訓練設計
Sapiens2 結合遮罩影像重建(masked image reconstruction)與自蒸餾對比學習(self-distilled contrastive learning)作為統一預訓練目標,同時捕捉低層次像素細節與高層次語意特徵。資料集方面,以 10 億張高品質人體影像進行預訓練,並強化任務標註。架構引入視窗注意力機制(windowed attention)延伸空間推理範圍,4K 模型則以 2K 輸出解析度進行預訓練。
評測結果
相較前代 Sapiens,各項任務均有顯著改善:姿態估計(pose estimation)提升 +4 mAP;身體部位分割(body-part segmentation)提升 +24.3 mIoU;法線估計(normal estimation)角度誤差降低 45.6%。Sapiens2 也延伸至點圖(pointmap)與反射率(albedo)估計等新任務。程式碼開源於 github.com/facebookresearch/sapiens2。
原始來源:arXiv:2604.21681
World-R1:以強化學習對文字轉影片模型施加 3D 幾何約束
arXiv / Microsoft Research · 2026-04-27
World-R1(arXiv:2604.24764)由 Microsoft Research 提出,針對現有影片基礎模型頻繁出現幾何不一致的問題,提出以強化學習回饋修正空間結構的框架。
技術路徑
World-R1 使用 Flow-GRPO 演算法,透過預訓練的 3D 重建模型與視覺語言模型提供獎勵訊號,無需更動基礎模型架構。訓練策略採用「週期性解耦訓練」(periodic decoupled training)——在強調幾何一致性與維持場景動態流動性之間交替,避免過度約束導致視覺品質下降。論文另公開了一套專為世界模擬設計的純文字資料集。
效果
論文報告該方法「在顯著提升 3D 一致性的同時,保留了基礎模型的原始視覺品質」,於 HuggingFace Daily Papers 獲得 129 票。授權條款為 CC BY-NC-SA 4.0。
原始來源:arXiv:2604.24764
KARL:以知識邊界感知強化學習引導 LLM 適時拒絕回答
arXiv (清華大學等) · 2026-04-28
KARL(Knowledge-Boundary-Aware Reinforcement Learning,arXiv:2604.22779)由清華大學研究團隊提出,針對 LLM 幻覺(hallucination)問題,訓練模型在超出自身知識邊界時主動拒絕回答,而非生成錯誤內容。
現有方法的問題
靜態獎勵系統會使模型的拒絕行為停留在某一訓練時間點的知識邊界,隨著模型持續訓練,知識邊界改變後原先的閾值就不再準確。KARL 改以動態方式持續對齊 LLM 的拒絕行為與其實際知識邊界。
訓練策略
方法分為兩階段:第一階段在探索知識邊界的同時,透過獎勵設計避免模型陷入「拒絕陷阱」(過度保守,對所有問題都拒絕回答);第二階段將超出知識邊界的錯誤回答轉換為拒絕,同時不犧牲邊界內的準確率。獎勵機制使用組內回應統計進行線上知識邊界估計(online knowledge boundary estimation),隨模型演化動態調整。
實驗結果
論文報告 KARL 在 in-distribution 與 out-of-distribution 場景下均達到更優的「準確率-幻覺」權衡,有效壓制幻覺同時維持高準確率。
原始來源:arXiv:2604.22779
Claude for Creative Work:MCP 整合 Blender、Ableton、Adobe Creative Cloud 等八大平台
Anthropic · 2026-04-28
Anthropic 宣布 Claude 針對創意工作的連接器(Connector)整合,以 Model Context Protocol(MCP)為技術基礎,涵蓋八個主要創意工具平台。
各平台技術整合
- Blender:透過 MCP 存取 Python API,以自然語言控制 3D 建模操作,MCP 介面亦對其他 LLM 開放
- Adobe Creative Cloud:涵蓋 Photoshop、Premiere、Express 等 50 多個工具的批次資產操作
- Ableton:存取 Live 與 Push 官方文件,提供 DAW 操作指引
- Autodesk Fusion:透過對話介面創建與修改 3D 模型
- Affinity by Canva:自動化批次影像調整、圖層重命名與檔案匯出
- Resolume Arena/Wire:實時以自然語言控制 VJ 軟體,適合現場演出
- SketchUp:將對話轉換為 3D 建模起點
- Splice:從 Claude 介面搜尋免版稅音樂樣本目錄
Claude Code 在此框架下承擔腳本、外掛與生成式系統的撰寫,以及多步驟批次資產處理任務,包含格式轉換、資料重組與跨專案資產同步。
原始來源:Anthropic
Stochastic KV Routing:隨機跨層注意力實現深度維度的 KV 快取分享
arXiv · 2026-04-28
KV 快取(Key-Value Cache)是 Transformer 推理的主要記憶體瓶頸之一。現有壓縮研究多集中於時間維度(減少 token 數量),Stochastic KV Routing(arXiv:2604.22782)則從深度維度(跨層分享)入手。
訓練期間的隨機路由
訓練時,各層隨機選擇使用自身 KV 狀態或前置某層的 KV 狀態進行注意力計算。這一隨機化過程使模型在推理部署時,能靈活採用多種快取分享策略,而無需重新訓練。
效果
論文指出,對於在資料受限場景下訓練的大型模型,此方法具有類似正則化的效果,能在顯著降低快取記憶體占用的同時,維持甚至改善模型表現。與先前的跨層分享方法相比,該方案在不影響首 token 延遲(TTFT)的前提下維持了吞吐量。
原始來源:arXiv:2604.22782