2026-05-16 — TabPFN-3 百萬列、SP-KV 快取壓縮、Darwin 演化式合併 86.9%

TabPFN-3：百萬列規模的表格基礎模型，推論速度勝 AutoGluon 十倍

arXiv cs.LG 2605.13986 · 2026-05-16

TabPFN-3 將 Prior-Data Fitted Networks（PFN）的表格學習範式擴展至 100 萬列訓練資料，在 TabArena 基準上超越包含 8 小時調參的 gradient-boosted tree 基線，同時比 TabPFN-2.5 快達 20 倍。

背景

PFN（Prior-Data Fitted Networks）的核心思路是將貝葉斯後驗推論轉化為前向推論：模型在合成資料上預訓練，推論時將整個訓練集作為 context 輸入，從而免除超參數搜索。TabPFN-2 已在小型資料集上展現競爭力，但 context 長度限制（~10K 列）使其無法應用於中大型資料集。

規格細節

TabPFN-3 以三項工程改進突破規模限制。首先是 縮減 KV cache：在 Transformer 的 attention 層中對訓練列的 key-value 向量進行壓縮，降低記憶體線性增長壓力。其次是 Row Chunking：將訓練集分批送入，每批計算局部表示後合併，讓單張 H100 能處理 200 特徵 × 100 萬列的任務。第三是模型完全以合成資料預訓練——不使用任何真實世界資料集，從先驗分佈生成多樣化的表格任務，避免分佈洩漏。

推論時還提供 Test-Time Compute 擴展（TabPFN-3-Plus / Thinking API）：在推論階段增加 compute budget，類似 Chain-of-Thought 的思考步驟，可進一步提升預測品質。

影響範圍

效能摘要如下：

對比基線	結果
AutoGluon 1.5 extreme	TabPFN-3-Plus 勝出，速度快 10×
8 小時調參 GBT（XGBoost/LightGBM）	TabPFN-3 在 ≤200 特徵資料集全勝
TabPFN-2.5	推論速度快 20×，SHAP 計算快 120×

這意味著對多數中小型 ML 團隊而言，表格資料已進入「丟進基礎模型直接推論」的時代，超參數調參的必要性大幅降低。模型已開放 API 存取。

原始來源：arXiv 2605.13986

SP-KV：學習預測 Token 未來效用，KV 快取壓縮達 3–10 倍

arXiv cs.LG 2605.14037 · 2026-05-16

Self-Pruned Key-Value Attention（SP-KV）提出以輕量效用預測器在推論時動態評分每個 KV pair，在不降低下游任務表現的前提下，將 KV 快取壓縮 3–10 倍，對長序列尤為有效。

核心改動

SP-KV 的架構包含一個與主模型聯合訓練的預測器，訓練損失僅使用下一個 token 預測，不需要人工標注。預測器輸出每個歷史 KV pair 的「未來效用分數」，分數低於動態閾值的 pair 不寫入快取。

快取策略採用混合機制：

Local window：最近 N 個 token 的 KV 無條件保留（保證近因效應）
動態閾值剪枝：歷史 KV 根據預測效用動態取捨，而非固定壓縮比

「動態」是關鍵：壓縮比會因輸入內容而異。論文報告長序列的壓縮率普遍高於短序列，部分場景可達 10× 壓縮，而驗證損失與多項下游任務的評分幾乎不變。

影響範圍

KV 快取是目前 LLM 部署的主要記憶體瓶頸——長上下文推論中它可消耗超過 50% 的 GPU 記憶體。SP-KV 若能在實際部署中維持其聲稱的壓縮比，等同於在相同硬體上服務 3–10 倍的並發請求，或處理 3–10 倍長的上下文視窗。論文提交於 arXiv 2605.14037，尚未經過 peer review。

原始來源：arXiv 2605.14037

Darwin Family：演化式模型合併無需梯度，GPQA Diamond 達 86.9%

HuggingFace Papers / arXiv 2605.14386 · 2026-05-16

Darwin Family 提出以訓練無關的演化式權重合併（training-free evolutionary merging）擴展 LLM 推理能力，旗艦模型 Darwin-27B-Opus 在 GPQA Diamond 基準達到 86.9%，在 1,252 個評估模型中排名第六，且超越其基礎模型的全量微調版本。

規格細節

Darwin Family 的核心是三個技術元件。第一，14 維自適應合併基因體（merge genome）：允許在元件層級（component-level）與塊層級（block-level）進行精細的重組，不同 Transformer 層可分配不同的合併係數。第二，MRI-Trust Fusion：用可學習的信任參數（trust parameter）在「診斷式層重要性信號」與「演化搜索」之間動態平衡，解決固定權重合併忽略層特異性的問題。第三，Architecture Mapper：支援跨架構育種——例如將 Transformer 系模型與 Mamba 架構模型的知識進行跨系合併。

演化過程模擬自然選擇：每一代從親代模型中生成後代，評估推理基準後保留高分個體，多代迭代後後代模型持續超越親代。整個過程不執行任何梯度反傳，僅對權重矩陣進行加權平均與重組操作。

影響範圍

該方法支援 4B 至 35B 參數規模，並支援遞迴多代演化。對資源有限的研究者意義重大：無需 GPU 叢集進行微調，僅需推理能力即可執行演化搜索，大幅降低開發前沿推理模型的成本。論文已公開於 arXiv 2605.14386，程式碼與模型權重同步釋出。

原始來源：arXiv 2605.14386、HuggingFace Papers

End of article

TabPFN-3：百萬列規模的表格基礎模型，推論速度勝 AutoGluon 十倍

背景

規格細節

影響範圍

SP-KV：學習預測 Token 未來效用，KV 快取壓縮達 3–10 倍

核心改動

影響範圍

Darwin Family：演化式模型合併無需梯度，GPQA Diamond 達 86.9%

規格細節

影響範圍

More on this topic