AI 前沿 2026 年 5 月 7 日

2026-05-07 — Anthropic SpaceX 算力協議、vLLM V1 正確性遷移

primary=https://www.anthropic.com/news/higher-limits-spacex primary=https://huggingface.co/blog/ServiceNow-AI/correctness-before-corrections

Anthropic 與 SpaceX 簽訂算力協議,Claude 使用限制同步調升

Anthropic · 2026-05-06

Anthropic 於 2026 年 5 月 6 日宣布兩項平行更新:立即生效的 Claude 使用量上限調整,以及與 SpaceX 簽訂的大規模算力採購協議,後者預計在一個月內釋出超過 300 MW 的新算力容量。

使用限制調整

三項變更同步生效:

  • Claude Code 五小時速率限制翻倍,覆蓋 Pro、Max、Team 及按席位計費的 Enterprise 方案
  • Pro 和 Max 帳戶取消尖峰時段流量限制,Claude Code 全天維持相同配額
  • API 層 Opus 模型速率限制大幅提升,具體數值詳見官方速率表

SpaceX Colossus 1 算力協議

協議核心是取得 SpaceX Colossus 1 資料中心逾 300 MW(對應超過 22 萬顆 NVIDIA GPU)的算力,預計在公告後一個月內上線,直接用於擴充 Claude Pro 和 Max 訂閱者的服務容量。Anthropic 同時表示有意與 SpaceX 進一步探索軌道 AI 算力(orbital AI compute)的多吉瓦建置可能性。

此協議是 Anthropic 近期算力布局的一部分。其他已簽訂的算力協議包括:Amazon(最高 5 GW,2026 年底前新增近 1 GW)、Google 和 Broadcom(5 GW,2027 年啟動)、Microsoft 和 NVIDIA(Azure 30 億美元)、Fluidstack(500 億美元美國 AI 基礎設施)。

影響範圍

Claude Code 的速率限制翻倍在 HN 和各開發者社群引發廣泛討論,因為此前 Pro 方案的五小時窗口對長時間代理任務造成明顯阻礙。尖峰時段限制的取消對多時區團隊的影響尤為顯著——原本 UTC 工作時間是配額最緊張的時段。SpaceX 協議的規模(超過 22 萬顆 GPU)接近單一協議史上最大規模之一,但相較於 Anthropic 宣稱的長期需求,這仍是過渡性補充。

原始來源:Anthropic — Higher usage limits for Claude and a compute deal with SpaceX


vLLM V0 到 V1 的遷移:先修正推理後端正確性,再談 RL 修正項

Hugging Face Blog · 2026-05-06

ServiceNow AI 研究團隊發表技術報告,記錄將 PipelineRL 從 vLLM 0.8.5(V0)遷移至 vLLM 0.18.1(V1)的過程。遷移初期出現訓練曲線嚴重偏離的問題——clip rate、KL、entropy、reward 等所有指標均惡化——最終確認根本原因是 V1 的推理後端與 V0 在 logprob 語意和運行時預設值上的多處差異,而非強化學習目標本身需要調整。

原本的問題

初始 V1 遷移後,訓練側的 logprob 在訓練早期即從 V0 基準線出現偏離,policy ratio 無法收斂至 1.0 附近,reward 軌跡與參考值明顯分叉。問題涉及四個獨立根因:

  • Logprob 語意差異:V1 預設回傳後處理前(temperature scaling 前)的 raw logprob,而訓練側預期的是後處理後的數值
  • 運行時預設值不同:V1 預設啟用 prefix caching 和 async scheduling,但兩者在線上 RL 的並發請求與動態權重更新場景中引入額外自由度
  • 飛行中權重更新路徑(inflight weight update):V1 的同步機制與 V0 的阻塞式模型不同,導致訓練步驟間的權重滯後(weight lag)加大
  • lm_head 精度:最終 logit 投影的精度影響 policy ratio,V1 需顯式指定 fp32

採用的方法

修復按層次推進,每次只修一個變數並量測指標收斂情況。關鍵的 YAML 配置修正為:

vllm_config:
  use_v1: true
  vllm_kwargs:
    logprobs-mode: processed_logprobs
    enable-prefix-caching: false
    async-scheduling: false

飛行中權重更新改用 mode="keep"clear_cache=False 以匹配 V0 阻塞式行為。fp32 lm_head 的必要性由 MiniMax-M1 報告(arXiv:2506.13585)和 ScaleRL 論文(arXiv:2510.13786)中的實驗佐證。

實際效果

最終修復後的 V1 在所有訓練指標上與 V0 基準線吻合:clip rate、KL、entropy 正規化,reward 軌跡幾乎重疊,weight lag 行為也恢復正常。方法論上的關鍵洞察是:推理後端正確性(backend correctness)與 RL 目標修正項(objective corrections)是兩個獨立問題,必須先解決前者,才能正確評估後者是否必要——否則修正項只是在掩蓋後端問題,使訓練曲線失去可解讀性。

原始來源:Hugging Face Blog — vLLM V0 to V1: Correctness Before Corrections in RL


End of article
0
Would love your thoughts, please comment.x
()
x