D.E. Shaw 以 ClickHouse 取代既有觀測平台:高基數指標的 7 倍查詢加速
ClickHouse Blog · 2026-05-15
量化投資公司 D.E. Shaw 在其工程部落格中記錄了以 ClickHouse 取代原有可觀測平台的過程:舊系統在高基數指標(high-cardinality metrics)場景下查詢延遲持續惡化,遷移後查詢效能提升 7 倍,同時獲得容量規劃與異常偵測的支援。這是繼 Avride 和 Cloudflare 後,又一個將 ClickHouse 作為 metrics 後端主力的案例。
原本的問題
高基數指標的核心挑戰在於 label 組合的笛卡兒積爆炸:每個 service×endpoint×status_code×region 組合都是獨立的時間序列,傳統時序資料庫(如 Prometheus 的本地儲存或部分 TSDB)會在高基數下出現 index 爆炸或查詢掃描量線性增長的問題。D.E. Shaw 的指標集具有大量動態維度,難以預定義低基數的 rollup 策略。
採用的方法
ClickHouse 以列式儲存(columnar storage)配合 MergeTree 引擎的 primary index 和 skip index 應對此場景。關鍵是 ClickHouse 的向量化查詢執行引擎可以在掃描時利用 SIMD 指令對大批量資料做過濾,高基數並不意味著大量隨機 I/O。D.E. Shaw 在 ClickHouse 上建構了自動異常偵測管線,以查詢結果直接驅動告警邏輯,省去中間層 ETL。
實際效果
遷移後的查詢延遲從原平台的數秒壓縮至毫秒級,整體查詢效能提升 7 倍。容量規劃功能得以啟用:以歷史趨勢計算未來資源需求,避免臨時擴容的反應式運維模式。D.E. Shaw 是金融業對 ClickHouse 為高頻率、高基數可觀測指標後端的採用案例,印證了此架構在有嚴格延遲要求的行業的可行性。
原始來源:ClickHouse Blog