2026-05-07 — Anthropic SpaceX 算力協議、vLLM V1 正確性遷移

Anthropic 與 SpaceX 簽訂算力協議，Claude 使用限制同步調升

Anthropic · 2026-05-06

Anthropic 於 2026 年 5 月 6 日宣布兩項平行更新：立即生效的 Claude 使用量上限調整，以及與 SpaceX 簽訂的大規模算力採購協議，後者預計在一個月內釋出超過 300 MW 的新算力容量。

使用限制調整

三項變更同步生效：

Claude Code 五小時速率限制翻倍，覆蓋 Pro、Max、Team 及按席位計費的 Enterprise 方案
Pro 和 Max 帳戶取消尖峰時段流量限制，Claude Code 全天維持相同配額
API 層 Opus 模型速率限制大幅提升，具體數值詳見官方速率表

SpaceX Colossus 1 算力協議

協議核心是取得 SpaceX Colossus 1 資料中心逾 300 MW（對應超過 22 萬顆 NVIDIA GPU）的算力，預計在公告後一個月內上線，直接用於擴充 Claude Pro 和 Max 訂閱者的服務容量。Anthropic 同時表示有意與 SpaceX 進一步探索軌道 AI 算力（orbital AI compute）的多吉瓦建置可能性。

此協議是 Anthropic 近期算力布局的一部分。其他已簽訂的算力協議包括：Amazon（最高 5 GW，2026 年底前新增近 1 GW）、Google 和 Broadcom（5 GW，2027 年啟動）、Microsoft 和 NVIDIA（Azure 30 億美元）、Fluidstack（500 億美元美國 AI 基礎設施）。

影響範圍

Claude Code 的速率限制翻倍在 HN 和各開發者社群引發廣泛討論，因為此前 Pro 方案的五小時窗口對長時間代理任務造成明顯阻礙。尖峰時段限制的取消對多時區團隊的影響尤為顯著——原本 UTC 工作時間是配額最緊張的時段。SpaceX 協議的規模（超過 22 萬顆 GPU）接近單一協議史上最大規模之一，但相較於 Anthropic 宣稱的長期需求，這仍是過渡性補充。

原始來源：Anthropic — Higher usage limits for Claude and a compute deal with SpaceX

vLLM V0 到 V1 的遷移：先修正推理後端正確性，再談 RL 修正項

Hugging Face Blog · 2026-05-06

ServiceNow AI 研究團隊發表技術報告，記錄將 PipelineRL 從 vLLM 0.8.5（V0）遷移至 vLLM 0.18.1（V1）的過程。遷移初期出現訓練曲線嚴重偏離的問題——clip rate、KL、entropy、reward 等所有指標均惡化——最終確認根本原因是 V1 的推理後端與 V0 在 logprob 語意和運行時預設值上的多處差異，而非強化學習目標本身需要調整。

原本的問題

初始 V1 遷移後，訓練側的 logprob 在訓練早期即從 V0 基準線出現偏離，policy ratio 無法收斂至 1.0 附近，reward 軌跡與參考值明顯分叉。問題涉及四個獨立根因：

Logprob 語意差異：V1 預設回傳後處理前（temperature scaling 前）的 raw logprob，而訓練側預期的是後處理後的數值
運行時預設值不同：V1 預設啟用 prefix caching 和 async scheduling，但兩者在線上 RL 的並發請求與動態權重更新場景中引入額外自由度
飛行中權重更新路徑（inflight weight update）：V1 的同步機制與 V0 的阻塞式模型不同，導致訓練步驟間的權重滯後（weight lag）加大
lm_head 精度：最終 logit 投影的精度影響 policy ratio，V1 需顯式指定 fp32

採用的方法

修復按層次推進，每次只修一個變數並量測指標收斂情況。關鍵的 YAML 配置修正為：

vllm_config:
  use_v1: true
  vllm_kwargs:
    logprobs-mode: processed_logprobs
    enable-prefix-caching: false
    async-scheduling: false

飛行中權重更新改用 mode="keep" 加 clear_cache=False 以匹配 V0 阻塞式行為。fp32 lm_head 的必要性由 MiniMax-M1 報告（arXiv:2506.13585）和 ScaleRL 論文（arXiv:2510.13786）中的實驗佐證。

實際效果

最終修復後的 V1 在所有訓練指標上與 V0 基準線吻合：clip rate、KL、entropy 正規化，reward 軌跡幾乎重疊，weight lag 行為也恢復正常。方法論上的關鍵洞察是：推理後端正確性（backend correctness）與 RL 目標修正項（objective corrections）是兩個獨立問題，必須先解決前者，才能正確評估後者是否必要——否則修正項只是在掩蓋後端問題，使訓練曲線失去可解讀性。

原始來源：Hugging Face Blog — vLLM V0 to V1: Correctness Before Corrections in RL

End of article