平台與維運 2026 年 5 月 24 日

2026-05-24 — Kubernetes PSI 指標 GA、Uber DeepETT 每秒 200 萬次路段預測

primary=https://kubernetes.io/blog/2026/05/12/kubernetes-v1-36-psi-metrics-ga/ primary=https://www.uber.com/tw/en/blog/scaling-real-time-traffic/

Kubernetes v1.36:PSI 資源壓力指標正式升級 GA,補足傳統使用率監控的盲區

Kubernetes Blog · 2026-05-12

Pressure Stall Information(PSI) 指標在 Kubernetes v1.36 正式升級為 General Availability,功能閘道 KubeletPSI 預設啟用,不再需要手動設定。PSI 源自 Linux kernel 2018 年加入的機制,量測任務因等待資源而停頓的時間比例,補充了傳統 CPU 使用率指標無法呈現的資源爭用現象。

PSI 與傳統指標的差異

傳統 utilization 指標只反映資源的使用程度,無法區分「高使用率但任務流暢」與「高使用率且任務在排隊等待」兩種情境。PSI 測量的是 CPU、記憶體、I/O 三類資源中任務實際等待(stall)的時間佔比,並提供 10 秒、60 秒、300 秒三個移動平均窗口,讓運維人員能區分瞬間尖峰與持續壓力。

三層觀測粒度

Kubelet 從 Linux cgroup 階層的 /proc/pressure/ 路徑週期性收集資料,提供三個層級的觀測:

  • 節點層級:整個節點的資源壓力
  • Pod 層級:單一 Pod 的資源壓力
  • 容器層級:單一容器的資源壓力

生產環境效能驗證

在 80 個 Pod 的高密度工作負載測試中,啟用 KubeletPSI 的 CPU 開銷為約 0.1 核(節點容量的 2.5%)。開啟 kernel PSI 追蹤本身的系統 CPU 增量為 0.037–0.125 核(0.925%–3.125%),短暫尖峰最高 0.225 核(5.6%),隨後自行回落。

PSI 指標透過 kubelet 暴露給監控系統,讓叢集運維人員可在 Grafana 或 Prometheus 中建立資源飽和預警規則,在服務降級前主動介入,並以客觀的 stall 資料驗證資源配置調整的效果。

原始來源:Kubernetes Blog


Uber DeepETT:Graph-Aware Transformer 每秒處理 200 萬次路段行駛時間預測

Uber Engineering Blog · 2026-05-19

DeepETT(Deep Estimated Traversal Time)是 Uber 的深度學習路段行駛時間預測系統,覆蓋全球約 1 億條路段,每秒生成超過 200 萬次實時預測,是 Uber 吞吐量最高的 ML 部署之一。系統輸出在多個時間視野(最長 3 小時)提供路段層級的 ETT,供路由引擎與到站時間估算使用。

架構設計決策

兩個關鍵的「降低風險」設計選擇:第一,只預測路段層級,而非端對端最佳化整個路由系統,使 DeepETT 與下游路由邏輯解耦;第二,使用固定大小的預聚合輸入,而非動態圖神經網路,讓延遲與吞吐量可預測。

輸入採多視角(multi-view)預聚合策略,跨空間維度(路段本身、道路圖鄰域、地理區域)和時間維度(實時聚合、歷史數天至數週、長期基準線)收集特徵。特徵經量化(quantize)、雜湊(hash)、嵌入後,由多層 transformer block 學習視角間的交互,最後透過單一預測頭輸出條件於預測時窗的 ETT。

實時校準的關鍵突破

團隊發現路段層級改善並不保證行程層級精度提升,原因是各路段的預測在加總時存在校準漂移。解法是建立一條 Flink streaming pipeline,持續監控預測與觀測值的差距,動態學習修正,使預測殘差維持平坦。這防止了誤差在數十個路段的行程中累積放大。

全球 A/B 測試結果

  • 長途行程到站時間精度改善 6%
  • 預測方差解釋力提升 19%
  • 導航缺陷率降低 2.73%
  • 估計年化營收效益 1 億美元

基礎設施由 Apache Spark 處理批次歷史特徵、Apache Flink 提供每分鐘更新的實時特徵,資料管線峰值攝取量達每秒 160,000 筆特徵行。

原始來源:Uber Engineering Blog


End of article
0
Would love your thoughts, please comment.x
()
x