平台與維運 2026 年 5 月 9 日

2026-05-09 — K8s v1.36 DRA GPU 分片 Beta、Microcks 成為 CNCF Incubating 專案

primary=https://kubernetes.io/blog/2026/05/07/kubernetes-v1-36-dra-136-updates/ primary=https://www.cncf.io/blog/2026/05/07/microcks-becomes-a-cncf-incubating-project/

Kubernetes v1.36 DRA 升級:GPU 分片、設備污點與 Prioritized Fallback 進入 Beta

Kubernetes Blog · 2026-05-07

Kubernetes v1.36 持續推進 Dynamic Resource Allocation(DRA)的成熟度,多項硬體加速器管理特性從 Alpha 升至 Beta 或 Stable,包含 Prioritized List(Stable)、Partitionable Devices(Beta)、Device Taints(Beta)與 Device Binding Conditions(Beta),合力解決大規模 GPU 集群的配置靈活性與硬體健康可見性問題。

核心改動

Prioritized List(Stable)允許在 ResourceClaim 中定義有序的設備偏好清單。例如 Pod 先請求 H100 GPU,不足時自動降級至 A100,再次不足時降級至 A10G,而不是直接進入 Pending 狀態等待特定設備。這顯著提升集群 GPU 利用率,對於不嚴格依賴特定硬體型號的 ML 訓練任務尤為有用。

Partitionable Devices(Beta)支援動態切割物理硬體為邏輯實例。NVIDIA Multi-Instance GPU(MIG)是典型應用場景:一張 A100 80GB 可切割為 7 個 MIG 實例,每個實例有獨立的記憶體與算力配額。DRA 現在能以原生方式理解此切割語意,允許不同 Pod 安全共用同一張物理 GPU 而不互相干擾

Device Taints 與健康狀態

Device Taints(Beta)將 Node Taint 的概念移植至個別 DRA 設備層級,讓管理員可將特定 GPU 標記為保留(reserved)或降級(degraded),只有帶有對應 Toleration 的 Pod 才能申請該設備。這解決了 GPU 硬體維護期間需要手動下線整個節點的痛點。

Resource Health Status(Beta)在 Pod status 中直接暴露設備健康資訊與人類可讀的錯誤訊息,無需登入節點查看 nvidia-smi 或閱讀驅動日誌,即可在 kubectl describe pod 輸出中看到 GPU 硬體故障的具體原因。

影響範圍

  • Device Binding Conditions(Beta):在外部資源(如 RDMA 網路)就緒前延遲 Pod-to-Node 綁定,防止過早排程導致 Pod 啟動失敗
  • Extended Resource Support(Beta):允許以傳統 requests.nvidia.com/gpu: 1 語法申請 DRA 管理的設備,提供遷移路徑
  • ResourceClaim for Workloads(Alpha):支援 PodGroup 級別的 ResourceClaim,解決大規模 AI/ML 任務的申請瓶頸

原始來源:Kubernetes Blog


Microcks 成為 CNCF Incubating 專案:多協定 API Mocking 進入雲端原生生態

CNCF Blog · 2026-05-07

CNCF 技術監督委員會(TOC)於 2026 年 5 月 7 日投票通過,將 Microcks 接納為 Incubating 等級專案。Microcks 是一個從 API 合約文件自動產生 live mock server 的平台,同時支援 OpenAPI、AsyncAPI、gRPC/Protobuf、GraphQL 與 SOAP/WSDL,兼顧同步 API 與事件驅動架構,而現有方案通常只擅長其中一個方向。

技術能力

Microcks 的核心工作流程是解析 API 合約(specification 文件)並即時啟動對應的 mock 端點,不需要任何自訂程式碼。對於 REST API,它讀取 OpenAPI 規格中的 examples 欄位生成回應;對於 Kafka/MQTT/AMQP 等非同步協定,其 Async Minion 元件負責模擬訊息發布與消費行為,讓下游服務可在不依賴真實 broker 的情況下進行整合測試。

合約測試(Contract Testing)是 Microcks 的另一項核心能力:它可以對真實實作的 API 端點發送請求並驗證回應是否符合 spec 定義,自動化地發現實作漂移(drift)。這與 Pact 等工具的差異在於 Microcks 以規格文件為單一真相來源,而非消費者驅動的合約文件。

採用現況

  • 2025 年容器下載量:250 萬次(較前年成長 3 倍)
  • 公開採用組織:34 個,包含多家大型金融機構
  • 貢獻者:645 名(最近一季 51 名活躍)
  • Testcontainers 模組支援:Java、Node.js、Go、Python、.NET

Microcks 提供 Helm chart 與 Kubernetes Operator 部署方式,與 ArgoCD、Tekton 等 CNCF 生態工具整合。晉升 Incubating 意味著 CNCF 將提供更多治理資源與採用推廣支援。

原始來源:CNCF BlogMicrocks 官網


End of article
0
Would love your thoughts, please comment.x
()
x