2026-06-01 — Kubernetes v1.36 工作負載感知排程、Slack AI 多雲架構

Kubernetes v1.36：Workload / PodGroup API 分離，為 AI/ML 批次排程奠定新架構

kubernetes.io · 2026-05-13

Kubernetes v1.36 在 scheduling.k8s.io/v1alpha2 API 組中引入對 AI/ML 與批次排程的重大架構改動：將 Workload API（靜態範本）與 PodGroup API（執行期物件）分離，並在此基礎上新增 topology-aware scheduling、workload-aware preemption 與 Dynamic Resource Allocation（DRA）支援，解決過去 Gang Scheduling 只能以 Pod-by-Pod 方式擴展的限制。所有功能目前均為 alpha 階段。

Workload / PodGroup 分離

v1.35 將排程策略與執行期狀態都放在同一個 Workload 物件中，造成多副本時狀態更新的競爭。v1.36 引入明確分工：

Workload：宣告式範本，描述排程策略（Gang scheduling 的 minCount、topology hints 等），不可變
PodGroup：執行期物件，每次執行建立一個，攜帶 schedulingGroup 指向對應的 Workload，負責反映實際的排程狀態

apiVersion: scheduling.k8s.io/v1alpha2
kind: Workload
metadata:
  name: training-job
spec:
  podGroupTemplates:
  - name: workers
    schedulingPolicy:
      gang:
        minCount: 4  # 至少 4 個 Pod 可調度才整批啟動

新增排程功能

PodGroup Scheduling Cycle：排程器以 PodGroup 為原子單位批次處理，避免 Gang 一半 Pod 調度成功、另一半失敗的孤兒狀態
Topology-Aware Scheduling：第一版實作，讓 GPU 訓練任務盡量排在同一 NUMA domain 或 rack，減少跨節點通訊延遲
Workload-Aware Preemption：驅逐低優先級 Pod 時，以 PodGroup 完整性為考量，不拆散正在執行的 Gang
ResourceClaim 支援：PodGroup 可透過 DRA 請求 GPU、自訂加速器等特殊硬體資源

遷移注意事項

v1.36 的 alpha API 中 Pod 規格裡的 workloadRef 欄位已被 schedulingGroup 取代，現有 v1.35 的 alpha 使用者需要更新 manifest。Kubernetes Job Controller 的整合也在 v1.36 進入 Phase 1，讓原生 batch/v1 Job 得以利用新的 workload-aware 排程能力，但完整整合預計在後續版本完成。

原始來源：Kubernetes Blog

Slack AI 的多雲之路：四個階段從 SageMaker 到 AWS+GCP 雙雲智慧路由

Slack Engineering · 2026-05-28

Slack Engineering 發文記錄 Slack AI 基礎設施從單一雲端供應商演進至 AWS + GCP 雙雲架構的四個階段。最終架構在 Vertex AI 加入後實現 10% 的 reasoning 準確率提升和 67% 的低 token 負載延遲下降，同時消除單一供應商停機作為單點故障的風險。

四階段演進

階段	基礎設施	主要限制
Phase 1	AWS SageMaker（自行部署模型）	GPU 稀缺、scaling 延遲、模型更新落後生態系
Phase 2	Amazon Bedrock（全託管）	單一供應商依賴
Phase 3	Bedrock 混合模式（PT + OD）	延遲敏感功能用 Provisioned Throughput，非同步用 On-Demand
Phase 4	AWS Bedrock + GCP Vertex AI	—（目前狀態）

Spillover Pattern 與智慧路由

Phase 3 引入的 Spillover Pattern 是架構核心：將延遲敏感的同步請求保留在 Provisioned Throughput 容量，當容量不足時自動溢出至 On-Demand，防止請求因容量耗盡而失敗。Phase 4 將此模式延伸至跨雲層次——以自動 circuit breaker 監測各供應商的端點健康，路由層可在毫秒內切換至備援雲端。

多雲帶來的模型優化空間

除了可用性之外，多雲路由開創了模型-任務匹配優化的空間：不同功能使用最適合的模型，而非所有功能共用同一模型。Slack 團隊觀察到將特定低 token 負載功能路由至 Vertex AI 上的模型後，延遲下降 67%，同時 reasoning 類任務的準確率提升 10%。

原始來源：Slack Engineering Blog

End of article