平台與維運 2026 年 5 月 30 日

2026-05-30 — KEDA GPU Autoscaling、Garnix CI 關閉、三層 IDP 架構

primary=https://www.cncf.io/blog/2026/05/27/gpu-autoscaling-on-kubernetes-with-keda-building-an-external-scaler/ primary=https://discourse.nixos.org/t/garnix-is-shutting-down-not-oc/77895 primary=https://www.cncf.io/blog/2026/05/29/building-a-cloud-native-internal-developer-platform-with-kubernetes-gitops-and-supply-chain-security/

Kubernetes GPU 自動縮放:以 KEDA External Scaler 讀取 NVML 指標驅動 HPA

CNCF Blog · 2026-05-27

Kubernetes 預設的 HPA 僅讀取 CPU/Memory 指標,對 GPU 工作負載完全無感,導致推理服務資源浪費、延遲偏高、能耗過大。CNCF 部落格發表實作指南:透過自定義 KEDA External Scaler,以 NVIDIA Management Library(NVML)讀取本地 GPU 指標,驅動 HPA 對 GPU 工作負載做出準確的擴縮決策。

架構:CGO 限制與 DaemonSet 解法

KEDA 本身以 CGO_ENABLED=0 建置,但 NVML 需要 CGO;且 NVML 呼叫只能查詢本地節點指標,跨節點不可行。解法是在每個 GPU 節點部署 DaemonSet Pod,Pod 直接呼叫 go-nvml 讀取本地 GPU 指標,透過 gRPC 實作 KEDA ExternalScaler 介面,供 KEDA operator 做出 HPA 決策。

暴露的 GPU 指標

  • gpu_utilization:SM 計算利用率(%)
  • memory_utilization:記憶體控制器利用率
  • memory_used_percent:VRAM 使用率
  • temperature:GPU die 溫度(°C)
  • power_draw:功耗(瓦)

多 GPU 聚合方式:max、min、avg、sum 可設定。

不同工作負載的縮放設定

工作負載指標目標值
vLLM 推理memory_used_percent80%
Triton 推理gpu_utilization75%
訓練gpu_utilization90%
批次推理memory_used_percent70%

支援 scale-to-zero(activation_threshold 設為 5% 以上避免誤觸發)。參考實作:keda-gpu-scaler 儲存庫。

原始來源:CNCF Blog — GPU Autoscaling


Garnix CI 加入 Shopify,7 月 15 日關閉,代碼庫開源

NixOS Discourse · 2026-05-29

Nix 生態系廣受歡迎的託管 CI/CD 服務 Garnix 宣布:整個團隊加入 Shopify,服務將於 2026 年 7 月 15 日正式關閉,同日刪除所有用戶資料和建置產物。Garnix 以「Nix 版的 CI 直接運作」著稱,其 call-by-hash 基礎設施方法讓 Nix flake 可直接作為 CI pipeline 定義。

影響範圍

Garnix 提供的關鍵功能包括 macOS builder(這在其他免費 CI 平台上罕見)和零設定的 Nix flake 建置。社群許多開源專案的 CI pipeline 直接依賴 Garnix,需在 7 月 15 日前遷移至替代方案(Hercules CI、GitHub Actions + nix-installer、Cachix Build 等)。

代碼庫開源

好消息是 Garnix 團隊將代碼庫開源發布在 GitHub,讓社群可以自行架設或建立共享服務。關閉前 Garnix 仍正常運作,用戶有約 6 週時間完成遷移。

原始來源:NixOS Discourse — Garnix Shutdown


三層雲原生 IDP:Argo CD + Cosign + Kyverno 達成 95% 部署成功率

CNCF Blog · 2026-05-29

CNCF 部落格發表了一個完整 Internal Developer Platform(IDP)的架構案例,三層設計分別處理基礎設施佈建、平台工具鏈和應用程式部署,結合 GitOps、supply chain security 和 policy enforcement,最終達成 ~95% 部署成功率、預置時間縮短至 15 分鐘以內。

三層架構

  • Infrastructure Layer:Terraform 模組化佈建 VNet、Managed K8s、Container Registry、Identity Store
  • Platform Layer:Argo CD(GitOps)、Istio(service mesh)、Prometheus + Grafana + Loki(可觀測性)、Kyverno(policy enforcement)
  • Application Layer:Helm 封裝、Git 驅動部署、獨立版本週期

Supply Chain Security 實作

  • Trivy:容器映像和依賴漏洞掃描
  • Cosign(keyless OIDC):所有映像加密簽名,部署前驗證
  • Kyverno Admission Policy:禁止 latest tag,強制 pinned 版本
  • Falco + AppArmor:執行期異常偵測

GitOps 透過 Argo CD 的 auto-sync + self-healing 消除設定漂移,80% 的漏洞在 staging 前被攔截,設定漂移降至近零。

原始來源:CNCF Blog — Cloud-Native IDP


End of article
0
Would love your thoughts, please comment.x
()
x