DuckDB Delta 擴充棄實驗標籤:INSERT 支援、Unity Catalog 整合、時間旅行查詢
DuckDB Blog · 2026-05-07
DuckDB 的 Delta Lake 擴充(delta extension)與 Unity Catalog 整合於 2026 年 5 月 7 日正式移除實驗標籤,新增 INSERT 寫入支援、時間旅行查詢,以及透過 Unity Catalog 協調的並發寫入控制。穩定版 v1.5.3 將包含增量快照載入(incremental snapshot loading),此特性目前已在 nightly 版本提供。
寫入支援
Delta 擴充現在支援 INSERT INTO 操作,同一 BEGIN/COMMIT 事務區塊中的多次插入會被合併為單一原子性 Delta 版本,保持 Delta Lake 的 ACID 語意。目前 UPDATE、MERGE、DELETE 尚未支援,列於未來工作清單。寫入時,擴充以 Delta Log(_delta_log/ 目錄下的 JSON 條目)記錄每個事務,維護與其他 Delta 相容引擎(如 Apache Spark、Databricks)的互通性。
時間旅行查詢
使用者可查詢 Delta 表格在特定版本時的歷史快照。時間旅行的版本綁定有兩種方式:
- 在
ATTACH時指定VERSION = <n>,整個連線期間固定在該版本 - 在單一查詢中以
AT VERSION = <n>臨時指定,不影響其他查詢
增量快照載入大幅提升相鄰版本間的時間旅行效能:系統不再從頭重建快照,而是在版本接近時增量計算差異。此特性在 nightly 版本可透過 FORCE INSTALL delta FROM core_nightly 安裝,預計進入 v1.5.3 穩定版。
Unity Catalog 整合
Unity Catalog(UC)是 Databricks 主導的開放數據與 AI 資產治理標準。DuckDB 的 Unity Catalog 擴充整合後,支援 Catalog Managed Tables(CMT)模式,UC 作為提交仲裁者協調並發寫入衝突:先完成的寫入者獲得提交,後到者收到衝突錯誤,解決多個 DuckDB 程序同時寫入同一 Delta 表格的衝突問題。
影響範圍
Delta 擴充移除實驗標籤後,DuckDB 在 Lakehouse 生態中的定位從「唯讀分析引擎」擴展到「可讀寫的 Delta 客戶端」。對使用 Databricks/Spark + DuckDB 混合架構的資料工程師而言,DuckDB 現在可以直接作為本地開發的寫入層,生成與 Spark 相容的 Delta 版本,無需在開發環境部署完整的 Spark 叢集。
原始來源:DuckDB Blog
ClickHouse Cloud 推出 Postgres Query Insights:pg_stat_ch 擴充驅動的深度查詢診斷
ClickHouse Blog · 2026-05-07
ClickHouse Cloud Managed Postgres 推出 Query Insights 預覽功能,以開源的 pg_stat_ch PostgreSQL 擴充為基礎,將每次查詢執行的細粒度遙測資料串流至 ClickHouse 儲存與分析,提供超越 pg_stat_statements 的互動式診斷能力。
架構設計
pg_stat_ch 擴充在 PostgreSQL 程序內攔截每次語句執行,在送出 ClickHouse 前將查詢中的字面值替換為佔位符(query normalization),避免敏感資料洩漏至遙測管線。正規化後的語句按模式(pattern)分組,每次執行作為獨立事件串流至 ClickHouse Cloud,ClickHouse 的 columnar 儲存與向量化執行引擎讓歷史月份的彙總計算仍保持互動速度。
診斷資訊層次
Query Insights 提供三層資訊:
- 總覽(Overview):單一畫面顯示查詢量、錯誤率、快取命中率、操作類型分布、延遲趨勢
- 模式表(Patterns):按總執行時間、CPU、錯誤數、最大延遲、P95 排序的查詢模式列表,可依資料庫、應用程式、操作類型、使用者篩選
- 詳細面板(Detail flyout):每執行次數的百分位延遲、CPU 分布、快取 vs 磁碟讀取比、temp file spill 資訊、parallel worker 分配
與 pg_stat_statements 的差異
pg_stat_statements 在 PostgreSQL 程序內以聚合方式記錄統計,只保留累計值(如總執行次數、總執行時間),無法回溯單次執行的詳細資料,也無法對歷史時段進行多維度篩選。Query Insights 保存每次執行的原始事件,在 ClickHouse 的 columnar 引擎上支援任意時段的 percentile 計算與多維分析,代價是需要 pg_stat_ch 擴充與外部 ClickHouse Cloud 連線。
原始來源:ClickHouse Blog