Kubernetes GPU 自動縮放:以 KEDA External Scaler 讀取 NVML 指標驅動 HPA
CNCF Blog · 2026-05-27
Kubernetes 預設的 HPA 僅讀取 CPU/Memory 指標,對 GPU 工作負載完全無感,導致推理服務資源浪費、延遲偏高、能耗過大。CNCF 部落格發表實作指南:透過自定義 KEDA External Scaler,以 NVIDIA Management Library(NVML)讀取本地 GPU 指標,驅動 HPA 對 GPU 工作負載做出準確的擴縮決策。
架構:CGO 限制與 DaemonSet 解法
KEDA 本身以 CGO_ENABLED=0 建置,但 NVML 需要 CGO;且 NVML 呼叫只能查詢本地節點指標,跨節點不可行。解法是在每個 GPU 節點部署 DaemonSet Pod,Pod 直接呼叫 go-nvml 讀取本地 GPU 指標,透過 gRPC 實作 KEDA ExternalScaler 介面,供 KEDA operator 做出 HPA 決策。
暴露的 GPU 指標
gpu_utilization:SM 計算利用率(%)memory_utilization:記憶體控制器利用率memory_used_percent:VRAM 使用率temperature:GPU die 溫度(°C)power_draw:功耗(瓦)
多 GPU 聚合方式:max、min、avg、sum 可設定。
不同工作負載的縮放設定
| 工作負載 | 指標 | 目標值 |
|---|---|---|
| vLLM 推理 | memory_used_percent | 80% |
| Triton 推理 | gpu_utilization | 75% |
| 訓練 | gpu_utilization | 90% |
| 批次推理 | memory_used_percent | 70% |
支援 scale-to-zero(activation_threshold 設為 5% 以上避免誤觸發)。參考實作:keda-gpu-scaler 儲存庫。
Garnix CI 加入 Shopify,7 月 15 日關閉,代碼庫開源
NixOS Discourse · 2026-05-29
Nix 生態系廣受歡迎的託管 CI/CD 服務 Garnix 宣布:整個團隊加入 Shopify,服務將於 2026 年 7 月 15 日正式關閉,同日刪除所有用戶資料和建置產物。Garnix 以「Nix 版的 CI 直接運作」著稱,其 call-by-hash 基礎設施方法讓 Nix flake 可直接作為 CI pipeline 定義。
影響範圍
Garnix 提供的關鍵功能包括 macOS builder(這在其他免費 CI 平台上罕見)和零設定的 Nix flake 建置。社群許多開源專案的 CI pipeline 直接依賴 Garnix,需在 7 月 15 日前遷移至替代方案(Hercules CI、GitHub Actions + nix-installer、Cachix Build 等)。
代碼庫開源
好消息是 Garnix 團隊將代碼庫開源發布在 GitHub,讓社群可以自行架設或建立共享服務。關閉前 Garnix 仍正常運作,用戶有約 6 週時間完成遷移。
三層雲原生 IDP:Argo CD + Cosign + Kyverno 達成 95% 部署成功率
CNCF Blog · 2026-05-29
CNCF 部落格發表了一個完整 Internal Developer Platform(IDP)的架構案例,三層設計分別處理基礎設施佈建、平台工具鏈和應用程式部署,結合 GitOps、supply chain security 和 policy enforcement,最終達成 ~95% 部署成功率、預置時間縮短至 15 分鐘以內。
三層架構
- Infrastructure Layer:Terraform 模組化佈建 VNet、Managed K8s、Container Registry、Identity Store
- Platform Layer:Argo CD(GitOps)、Istio(service mesh)、Prometheus + Grafana + Loki(可觀測性)、Kyverno(policy enforcement)
- Application Layer:Helm 封裝、Git 驅動部署、獨立版本週期
Supply Chain Security 實作
- Trivy:容器映像和依賴漏洞掃描
- Cosign(keyless OIDC):所有映像加密簽名,部署前驗證
- Kyverno Admission Policy:禁止
latesttag,強制 pinned 版本 - Falco + AppArmor:執行期異常偵測
GitOps 透過 Argo CD 的 auto-sync + self-healing 消除設定漂移,80% 的漏洞在 staging 前被攔截,設定漂移降至近零。