Anthropic 收購 Stainless:SDK 自動生成商入列,強化 Claude Agent 的外部連接能力
Anthropic · 2026-05-18
Anthropic 於 2026 年 5 月 18 日宣布收購 Stainless,一家成立於 2022 年、專注於從 API 規格自動生成 SDK、CLI 工具與 MCP Server 的公司。Stainless 已為 Anthropic 所有官方 SDK 提供生成基礎,其工具被數百家公司採用。
Stainless 的技術定位
Stainless 的核心能力是將 OpenAPI 規格自動轉換為多語言原生 SDK——TypeScript、Python、Go、Java、Kotlin——並同步生成對應的 CLI 工具與 Model Context Protocol(MCP)Server。這個「規格驅動多語言生成」的方式確保 SDK 在不同語言之間行為一致,且能自動跟進 API 變更。從 Anthropic 的角度,Stainless 已在公司發展最早期就提供這個基礎設施。收購後,Stainless 團隊將整合至 Anthropic 的平台工程部門。
收購的戰略意義
Agent 連接能力是此次收購的核心理由。Anthropic Head of Platform Engineering Katelyn Lesse 的說法直接點出問題:「Agents are only as useful as what they can connect to.」隨著 Claude 從聊天助手演進為執行多步驟任務的 agent,它需要可靠且標準化的方式連接外部 API、資料庫與工具。
MCP(Model Context Protocol)在這個背景下扮演關鍵角色——MCP Server 讓 agent 能以標準化協議存取工具,而 Stainless 的能力正是從 API 規格自動生成這些 Server。兩者結合意味著任何有 OpenAPI 規格的服務都可以快速成為 Claude 可以操作的工具端點。
影響範圍
對 Anthropic SDK 的使用者而言,短期影響主要是維護連續性——Stainless 的工具已在後台運作,收購不改變 SDK 的對外介面。中期影響在於 Anthropic 平台的 agent 連接能力可能獲得更深度的工具自動化支援,特別是在企業 API 整合場景。
原始來源:Anthropic
Modal 推理冷啟動縮短 40 倍:LP 排程 + FUSE 懶載入 + CPU/GPU Checkpoint/Restore 四技組合
Modal · 2026-05-19
Modal 於 2026 年 5 月 19 日發布技術文章,說明如何將 AI 推理伺服器的啟動時間從約 2,000 秒(含機器配置)壓縮至約 50 秒,達到 40 倍加速。解法是四個正交技術的組合,各自針對不同的啟動瓶頸。
核心改動
線性規劃(LP)預置 GPU 池:Modal 維護一個跨實例類型的閒置 GPU 緩衝池,將實例啟動從關鍵路徑移除。使用 Google GLOP 求解器最佳化哪些實例類型要預先啟動,在「要求的 GPU、緩衝 GPU、雲端供應商容量限制」等約束下最小化成本。
ImageFS 自訂 FUSE 檔案系統:取代完整載入容器映像,Modal 的 FUSE 實作採用分層、內容定址的快取,只阻塞在載入元資料(約 100ms),其餘檔案並行懶載入。基於「大多數檔案在執行期間不會被讀取」的觀察,容器啟動時間縮短約一分鐘。
CPU Checkpoint/Restore(C/R):使用 gVisor 的 checkpoint/restore 功能將執行中的程序狀態(記憶體、執行緒、檔案描述符)序列化到磁碟。還原時跳過 Python import 與函式庫初始化的數十秒。從 2026 年 2 月到 4 月,Modal 已還原約 5,000 萬個 CPU/GPU 快照。
GPU CUDA Checkpoint/Restore:NVIDIA 驅動程式將 GPU 記憶體 checkpoint 到主機記憶體,再由主機端系統序列化裝置狀態。還原時驅動程式重新載入裝置記憶體。此技術對推理引擎設定帶來 4–10 倍加速。
實際效果
| 場景 | 改善前 | 改善後 |
|---|---|---|
| vLLM 1GB 模型 | 95.7s | 13.8s |
| SGLang 1GB 模型 | 83.7s | 17.5s |
| Reducto 文件處理 | ~70s | ~12s |
真正 serverless GPU 在這個脈絡下的意義是:冷啟動延遲低到足以讓按需計費實際可行,而不需要常態保留 GPU 實例。對於低流量但需要 GPU 推理的工作負載,這個架構能大幅降低費用。
原始來源:Modal Blog
量化破壞對齊:3-bit 壓縮讓 LLM 生成新偏見,Perplexity 指標系統性失靈
arXiv · 2026-05-18 · 論文 2605.15208
arXiv 論文 2605.15208「Quantization Undoes Alignment: Bias Emergence in Compressed LLMs」發現,將指令微調過的大型語言模型壓縮至 3-bit 精度,會導致 6–21% 的原本無偏見項目出現新的刻板印象行為,且標準品質指標(perplexity)在 4-bit 精度時幾乎偵測不到這個退化。
實驗設計
研究者測試了三個指令微調模型:Qwen2.5-7B、Mistral-7B、Phi-3.5-mini,跨五個精度等級(BF16 到 3-bit)進行評估。使用 BBQ(Bias Benchmark for QA)的 12,148 個偏見評估項目,各用 5 個隨機種子,共產生 911,100 筆推理記錄。
漏洞機制
劑量-反應關係:隨著精度降低,刻板印象輸出比例單調上升。4-bit 精度時已有 2.5–5.6% 的項目出現新偏見;降至 3-bit 時比例跳升至 6–21%。此外,模型「選擇 unknown 答案的意願在低精度下降低 17.4%」——即模型在不確定時更傾向猜測而非承認不確定性,進一步放大偏見效果。
Perplexity 的失靈是論文的核心發現之一:8-bit 壓縮時 perplexity 增加不到 0.5%,4-bit 時增加不到 3%,但 4-bit 下已有 2.5–5.6% 項目出現新偏見。聚合指標系統性地遺漏了對公平性關鍵的逐項退化。
影響範圍
量化是在邊緣裝置或受限硬體上部署 LLM 的標準技術。這個發現對需要在效能、成本、公平性之間取捨的部署者有直接影響——特別是在使用者群體多元的應用場景中,低精度量化可能在無聲中重新引入對齊訓練已消除的偏見。論文建議以逐項(item-level)偏見評估補充傳統的聚合指標,作為量化後的必要品質驗證步驟。
原始來源:arXiv:2605.15208