資料與儲存 2026 年 5 月 8 日

2026-05-08 — DuckDB Delta 擴充移除實驗標籤、ClickHouse Postgres Query Insights 預覽

primary=https://duckdb.org/2026/05/07/delta-uc-updates.html primary=https://clickhouse.com/blog/postgres-query-insights-clickhouse-cloud

DuckDB Delta 擴充棄實驗標籤:INSERT 支援、Unity Catalog 整合、時間旅行查詢

DuckDB Blog · 2026-05-07

DuckDB 的 Delta Lake 擴充delta extension)與 Unity Catalog 整合於 2026 年 5 月 7 日正式移除實驗標籤,新增 INSERT 寫入支援、時間旅行查詢,以及透過 Unity Catalog 協調的並發寫入控制。穩定版 v1.5.3 將包含增量快照載入(incremental snapshot loading),此特性目前已在 nightly 版本提供。

寫入支援

Delta 擴充現在支援 INSERT INTO 操作,同一 BEGIN/COMMIT 事務區塊中的多次插入會被合併為單一原子性 Delta 版本,保持 Delta Lake 的 ACID 語意。目前 UPDATEMERGEDELETE 尚未支援,列於未來工作清單。寫入時,擴充以 Delta Log(_delta_log/ 目錄下的 JSON 條目)記錄每個事務,維護與其他 Delta 相容引擎(如 Apache Spark、Databricks)的互通性。

時間旅行查詢

使用者可查詢 Delta 表格在特定版本時的歷史快照。時間旅行的版本綁定有兩種方式:

  • ATTACH 時指定 VERSION = <n>,整個連線期間固定在該版本
  • 在單一查詢中以 AT VERSION = <n> 臨時指定,不影響其他查詢

增量快照載入大幅提升相鄰版本間的時間旅行效能:系統不再從頭重建快照,而是在版本接近時增量計算差異。此特性在 nightly 版本可透過 FORCE INSTALL delta FROM core_nightly 安裝,預計進入 v1.5.3 穩定版。

Unity Catalog 整合

Unity Catalog(UC)是 Databricks 主導的開放數據與 AI 資產治理標準。DuckDB 的 Unity Catalog 擴充整合後,支援 Catalog Managed Tables(CMT)模式,UC 作為提交仲裁者協調並發寫入衝突:先完成的寫入者獲得提交,後到者收到衝突錯誤,解決多個 DuckDB 程序同時寫入同一 Delta 表格的衝突問題。

影響範圍

Delta 擴充移除實驗標籤後,DuckDB 在 Lakehouse 生態中的定位從「唯讀分析引擎」擴展到「可讀寫的 Delta 客戶端」。對使用 Databricks/Spark + DuckDB 混合架構的資料工程師而言,DuckDB 現在可以直接作為本地開發的寫入層,生成與 Spark 相容的 Delta 版本,無需在開發環境部署完整的 Spark 叢集。

原始來源:DuckDB Blog


ClickHouse Cloud 推出 Postgres Query Insights:pg_stat_ch 擴充驅動的深度查詢診斷

ClickHouse Blog · 2026-05-07

ClickHouse Cloud Managed Postgres 推出 Query Insights 預覽功能,以開源的 pg_stat_ch PostgreSQL 擴充為基礎,將每次查詢執行的細粒度遙測資料串流至 ClickHouse 儲存與分析,提供超越 pg_stat_statements 的互動式診斷能力。

架構設計

pg_stat_ch 擴充在 PostgreSQL 程序內攔截每次語句執行,在送出 ClickHouse 前將查詢中的字面值替換為佔位符(query normalization),避免敏感資料洩漏至遙測管線。正規化後的語句按模式(pattern)分組,每次執行作為獨立事件串流至 ClickHouse Cloud,ClickHouse 的 columnar 儲存與向量化執行引擎讓歷史月份的彙總計算仍保持互動速度。

診斷資訊層次

Query Insights 提供三層資訊:

  • 總覽(Overview):單一畫面顯示查詢量、錯誤率、快取命中率、操作類型分布、延遲趨勢
  • 模式表(Patterns):按總執行時間、CPU、錯誤數、最大延遲、P95 排序的查詢模式列表,可依資料庫、應用程式、操作類型、使用者篩選
  • 詳細面板(Detail flyout):每執行次數的百分位延遲、CPU 分布、快取 vs 磁碟讀取比、temp file spill 資訊、parallel worker 分配

與 pg_stat_statements 的差異

pg_stat_statements 在 PostgreSQL 程序內以聚合方式記錄統計,只保留累計值(如總執行次數、總執行時間),無法回溯單次執行的詳細資料,也無法對歷史時段進行多維度篩選。Query Insights 保存每次執行的原始事件,在 ClickHouse 的 columnar 引擎上支援任意時段的 percentile 計算與多維分析,代價是需要 pg_stat_ch 擴充與外部 ClickHouse Cloud 連線。

原始來源:ClickHouse Blog


End of article
0
Would love your thoughts, please comment.x
()
x