Kubernetes v1.36:PSI 資源壓力指標正式升級 GA,補足傳統使用率監控的盲區
Kubernetes Blog · 2026-05-12
Pressure Stall Information(PSI) 指標在 Kubernetes v1.36 正式升級為 General Availability,功能閘道 KubeletPSI 預設啟用,不再需要手動設定。PSI 源自 Linux kernel 2018 年加入的機制,量測任務因等待資源而停頓的時間比例,補充了傳統 CPU 使用率指標無法呈現的資源爭用現象。
PSI 與傳統指標的差異
傳統 utilization 指標只反映資源的使用程度,無法區分「高使用率但任務流暢」與「高使用率且任務在排隊等待」兩種情境。PSI 測量的是 CPU、記憶體、I/O 三類資源中任務實際等待(stall)的時間佔比,並提供 10 秒、60 秒、300 秒三個移動平均窗口,讓運維人員能區分瞬間尖峰與持續壓力。
三層觀測粒度
Kubelet 從 Linux cgroup 階層的 /proc/pressure/ 路徑週期性收集資料,提供三個層級的觀測:
- 節點層級:整個節點的資源壓力
- Pod 層級:單一 Pod 的資源壓力
- 容器層級:單一容器的資源壓力
生產環境效能驗證
在 80 個 Pod 的高密度工作負載測試中,啟用 KubeletPSI 的 CPU 開銷為約 0.1 核(節點容量的 2.5%)。開啟 kernel PSI 追蹤本身的系統 CPU 增量為 0.037–0.125 核(0.925%–3.125%),短暫尖峰最高 0.225 核(5.6%),隨後自行回落。
PSI 指標透過 kubelet 暴露給監控系統,讓叢集運維人員可在 Grafana 或 Prometheus 中建立資源飽和預警規則,在服務降級前主動介入,並以客觀的 stall 資料驗證資源配置調整的效果。
原始來源:Kubernetes Blog
Uber DeepETT:Graph-Aware Transformer 每秒處理 200 萬次路段行駛時間預測
Uber Engineering Blog · 2026-05-19
DeepETT(Deep Estimated Traversal Time)是 Uber 的深度學習路段行駛時間預測系統,覆蓋全球約 1 億條路段,每秒生成超過 200 萬次實時預測,是 Uber 吞吐量最高的 ML 部署之一。系統輸出在多個時間視野(最長 3 小時)提供路段層級的 ETT,供路由引擎與到站時間估算使用。
架構設計決策
兩個關鍵的「降低風險」設計選擇:第一,只預測路段層級,而非端對端最佳化整個路由系統,使 DeepETT 與下游路由邏輯解耦;第二,使用固定大小的預聚合輸入,而非動態圖神經網路,讓延遲與吞吐量可預測。
輸入採多視角(multi-view)預聚合策略,跨空間維度(路段本身、道路圖鄰域、地理區域)和時間維度(實時聚合、歷史數天至數週、長期基準線)收集特徵。特徵經量化(quantize)、雜湊(hash)、嵌入後,由多層 transformer block 學習視角間的交互,最後透過單一預測頭輸出條件於預測時窗的 ETT。
實時校準的關鍵突破
團隊發現路段層級改善並不保證行程層級精度提升,原因是各路段的預測在加總時存在校準漂移。解法是建立一條 Flink streaming pipeline,持續監控預測與觀測值的差距,動態學習修正,使預測殘差維持平坦。這防止了誤差在數十個路段的行程中累積放大。
全球 A/B 測試結果
- 長途行程到站時間精度改善 6%
- 預測方差解釋力提升 19%
- 導航缺陷率降低 2.73%
- 估計年化營收效益 1 億美元
基礎設施由 Apache Spark 處理批次歷史特徵、Apache Flink 提供每分鐘更新的實時特徵,資料管線峰值攝取量達每秒 160,000 筆特徵行。