2026-05-24 — Kubernetes PSI 指標 GA、Uber DeepETT 每秒 200 萬次路段預測

Kubernetes v1.36：PSI 資源壓力指標正式升級 GA，補足傳統使用率監控的盲區

Kubernetes Blog · 2026-05-12

Pressure Stall Information（PSI） 指標在 Kubernetes v1.36 正式升級為 General Availability，功能閘道 KubeletPSI 預設啟用，不再需要手動設定。PSI 源自 Linux kernel 2018 年加入的機制，量測任務因等待資源而停頓的時間比例，補充了傳統 CPU 使用率指標無法呈現的資源爭用現象。

PSI 與傳統指標的差異

傳統 utilization 指標只反映資源的使用程度，無法區分「高使用率但任務流暢」與「高使用率且任務在排隊等待」兩種情境。PSI 測量的是 CPU、記憶體、I/O 三類資源中任務實際等待（stall）的時間佔比，並提供 10 秒、60 秒、300 秒三個移動平均窗口，讓運維人員能區分瞬間尖峰與持續壓力。

三層觀測粒度

Kubelet 從 Linux cgroup 階層的 /proc/pressure/ 路徑週期性收集資料，提供三個層級的觀測：

節點層級：整個節點的資源壓力
Pod 層級：單一 Pod 的資源壓力
容器層級：單一容器的資源壓力

生產環境效能驗證

在 80 個 Pod 的高密度工作負載測試中，啟用 KubeletPSI 的 CPU 開銷為約 0.1 核（節點容量的 2.5%）。開啟 kernel PSI 追蹤本身的系統 CPU 增量為 0.037–0.125 核（0.925%–3.125%），短暫尖峰最高 0.225 核（5.6%），隨後自行回落。

PSI 指標透過 kubelet 暴露給監控系統，讓叢集運維人員可在 Grafana 或 Prometheus 中建立資源飽和預警規則，在服務降級前主動介入，並以客觀的 stall 資料驗證資源配置調整的效果。

原始來源：Kubernetes Blog

Uber DeepETT：Graph-Aware Transformer 每秒處理 200 萬次路段行駛時間預測

Uber Engineering Blog · 2026-05-19

DeepETT（Deep Estimated Traversal Time）是 Uber 的深度學習路段行駛時間預測系統，覆蓋全球約 1 億條路段，每秒生成超過 200 萬次實時預測，是 Uber 吞吐量最高的 ML 部署之一。系統輸出在多個時間視野（最長 3 小時）提供路段層級的 ETT，供路由引擎與到站時間估算使用。

架構設計決策

兩個關鍵的「降低風險」設計選擇：第一，只預測路段層級，而非端對端最佳化整個路由系統，使 DeepETT 與下游路由邏輯解耦；第二，使用固定大小的預聚合輸入，而非動態圖神經網路，讓延遲與吞吐量可預測。

輸入採多視角（multi-view）預聚合策略，跨空間維度（路段本身、道路圖鄰域、地理區域）和時間維度（實時聚合、歷史數天至數週、長期基準線）收集特徵。特徵經量化（quantize）、雜湊（hash）、嵌入後，由多層 transformer block 學習視角間的交互，最後透過單一預測頭輸出條件於預測時窗的 ETT。

實時校準的關鍵突破

團隊發現路段層級改善並不保證行程層級精度提升，原因是各路段的預測在加總時存在校準漂移。解法是建立一條 Flink streaming pipeline，持續監控預測與觀測值的差距，動態學習修正，使預測殘差維持平坦。這防止了誤差在數十個路段的行程中累積放大。

全球 A/B 測試結果

長途行程到站時間精度改善 6%
預測方差解釋力提升 19%
導航缺陷率降低 2.73%
估計年化營收效益 1 億美元

基礎設施由 Apache Spark 處理批次歷史特徵、Apache Flink 提供每分鐘更新的實時特徵，資料管線峰值攝取量達每秒 160,000 筆特徵行。

原始來源：Uber Engineering Blog

End of article