TabPFN-3:百萬列規模的表格基礎模型,推論速度勝 AutoGluon 十倍
arXiv cs.LG 2605.13986 · 2026-05-16
TabPFN-3 將 Prior-Data Fitted Networks(PFN)的表格學習範式擴展至 100 萬列訓練資料,在 TabArena 基準上超越包含 8 小時調參的 gradient-boosted tree 基線,同時比 TabPFN-2.5 快達 20 倍。
背景
PFN(Prior-Data Fitted Networks)的核心思路是將貝葉斯後驗推論轉化為前向推論:模型在合成資料上預訓練,推論時將整個訓練集作為 context 輸入,從而免除超參數搜索。TabPFN-2 已在小型資料集上展現競爭力,但 context 長度限制(~10K 列)使其無法應用於中大型資料集。
規格細節
TabPFN-3 以三項工程改進突破規模限制。首先是 縮減 KV cache:在 Transformer 的 attention 層中對訓練列的 key-value 向量進行壓縮,降低記憶體線性增長壓力。其次是 Row Chunking:將訓練集分批送入,每批計算局部表示後合併,讓單張 H100 能處理 200 特徵 × 100 萬列的任務。第三是模型完全以合成資料預訓練——不使用任何真實世界資料集,從先驗分佈生成多樣化的表格任務,避免分佈洩漏。
推論時還提供 Test-Time Compute 擴展(TabPFN-3-Plus / Thinking API):在推論階段增加 compute budget,類似 Chain-of-Thought 的思考步驟,可進一步提升預測品質。
影響範圍
效能摘要如下:
| 對比基線 | 結果 |
|---|---|
| AutoGluon 1.5 extreme | TabPFN-3-Plus 勝出,速度快 10× |
| 8 小時調參 GBT(XGBoost/LightGBM) | TabPFN-3 在 ≤200 特徵資料集全勝 |
| TabPFN-2.5 | 推論速度快 20×,SHAP 計算快 120× |
這意味著對多數中小型 ML 團隊而言,表格資料已進入「丟進基礎模型直接推論」的時代,超參數調參的必要性大幅降低。模型已開放 API 存取。
原始來源:arXiv 2605.13986
SP-KV:學習預測 Token 未來效用,KV 快取壓縮達 3–10 倍
arXiv cs.LG 2605.14037 · 2026-05-16
Self-Pruned Key-Value Attention(SP-KV)提出以輕量效用預測器在推論時動態評分每個 KV pair,在不降低下游任務表現的前提下,將 KV 快取壓縮 3–10 倍,對長序列尤為有效。
核心改動
SP-KV 的架構包含一個與主模型聯合訓練的預測器,訓練損失僅使用下一個 token 預測,不需要人工標注。預測器輸出每個歷史 KV pair 的「未來效用分數」,分數低於動態閾值的 pair 不寫入快取。
快取策略採用混合機制:
- Local window:最近 N 個 token 的 KV 無條件保留(保證近因效應)
- 動態閾值剪枝:歷史 KV 根據預測效用動態取捨,而非固定壓縮比
「動態」是關鍵:壓縮比會因輸入內容而異。論文報告長序列的壓縮率普遍高於短序列,部分場景可達 10× 壓縮,而驗證損失與多項下游任務的評分幾乎不變。
影響範圍
KV 快取是目前 LLM 部署的主要記憶體瓶頸——長上下文推論中它可消耗超過 50% 的 GPU 記憶體。SP-KV 若能在實際部署中維持其聲稱的壓縮比,等同於在相同硬體上服務 3–10 倍的並發請求,或處理 3–10 倍長的上下文視窗。論文提交於 arXiv 2605.14037,尚未經過 peer review。
原始來源:arXiv 2605.14037
Darwin Family:演化式模型合併無需梯度,GPQA Diamond 達 86.9%
HuggingFace Papers / arXiv 2605.14386 · 2026-05-16
Darwin Family 提出以訓練無關的演化式權重合併(training-free evolutionary merging)擴展 LLM 推理能力,旗艦模型 Darwin-27B-Opus 在 GPQA Diamond 基準達到 86.9%,在 1,252 個評估模型中排名第六,且超越其基礎模型的全量微調版本。
規格細節
Darwin Family 的核心是三個技術元件。第一,14 維自適應合併基因體(merge genome):允許在元件層級(component-level)與塊層級(block-level)進行精細的重組,不同 Transformer 層可分配不同的合併係數。第二,MRI-Trust Fusion:用可學習的信任參數(trust parameter)在「診斷式層重要性信號」與「演化搜索」之間動態平衡,解決固定權重合併忽略層特異性的問題。第三,Architecture Mapper:支援跨架構育種——例如將 Transformer 系模型與 Mamba 架構模型的知識進行跨系合併。
演化過程模擬自然選擇:每一代從親代模型中生成後代,評估推理基準後保留高分個體,多代迭代後後代模型持續超越親代。整個過程不執行任何梯度反傳,僅對權重矩陣進行加權平均與重組操作。
影響範圍
該方法支援 4B 至 35B 參數規模,並支援遞迴多代演化。對資源有限的研究者意義重大:無需 GPU 叢集進行微調,僅需推理能力即可執行演化搜索,大幅降低開發前沿推理模型的成本。論文已公開於 arXiv 2605.14386,程式碼與模型權重同步釋出。