AI 前沿 2026 年 5 月 17 日

2026-05-17 — δ-Mem LLM 線上記憶體、TabPFN-3 百萬行表格模型、DeepSeek 激活操控

primary=https://arxiv.org/abs/2605.12357 primary=https://arxiv.org/abs/2605.13986 primary=https://priorlabs.ai/technical-reports/tabpfn-3 primary=https://www.seangoedecke.com/steering-vectors/ primary=https://nvlabs.github.io/Sana/WM/

δ-Mem:以 8×8 狀態矩陣為 LLM 加裝線上記憶體

arXiv cs.LG · 2026-05-17

arXiv 論文 2605.12357 提出 δ-Mem(Delta-Mem),一套輕量的記憶體增強機制,讓 LLM 能在不擴張 context window、不重新訓練的情況下,累積並複用歷史資訊。其核心是維護一個固定大小的聯想記憶體狀態矩陣,透過 delta-rule 更新,將壓縮後的歷史注入 attention 計算。

架構細節

δ-Mem 由三個元件組成:凍結的全注意力骨幹(原始 LLM,權重不變)、固定大小的線上狀態矩陣(實驗中採用 8×8)、以及低秩修正生成系統。推理時,狀態矩陣被讀出並轉換為對骨幹 attention 計算的低秩修正量,無需更動模型架構或權重。

更新規則採用 delta-rule——一種源自神經科學的線上學習規則,使狀態矩陣能在不進行完整反向傳播的情況下,以極低的計算成本持續更新。8×8 的矩陣大小使得計算開銷幾乎可以忽略不計,整個機制對推理延遲的影響極小。

效能結果

基準測試提升倍率
一般平均(vs. 凍結骨幹)1.10×
一般平均(vs. 現有基線)1.15×
MemoryAgentBench1.31×
LoCoMo1.20×

在記憶體密集型任務(MemoryAgentBench、LoCoMo)上的提升最為顯著,同時保留了一般能力,不出現因記憶體注入導致的原有任務退化。

影響範圍

δ-Mem 的設計切入點是「記憶體」問題,而非「長度」問題——它不試圖讓模型讀更長的 context,而是讓模型在 context 之外維護一個可持續累積的狀態。這個方向對長對話、持續任務、跨 session 的 agent 情境有直接意義,且不需要模型重訓,可疊加在現有已部署的 LLM 上。

原始來源:arXiv:2605.12357


TabPFN-3:表格資料基礎模型擴展至百萬行

PriorLabs / arXiv · 2026-05-13

PriorLabs 發布 arXiv:2605.13986 TabPFN-3 技術報告,將表格資料基礎模型的規模推至單 H100 上支援 100 萬筆訓練資料,並在 TabArena 基準上以單次前向傳遞超越所有競爭模型,包括調校 8 小時的 gradient-boosted tree 基線。

核心改動

TabPFN-3 的關鍵技術突破在兩個方向:縮減 KV cache 設計搭配 row-chunking,使模型可在記憶體受限環境下處理百萬級資料集;測試時計算縮放(test-time compute scaling)的引入,讓 TabPFN-3-Plus(Thinking 版本)在不到 AutoGluon 1.5 Extreme 十分之一的執行時間內超越其表現。

與前代 TabPFN-2.5 相比,推理速度快達 20 倍,同時在多類別資料集(many-class datasets)、關聯資料(RelBenchV1 新 SOTA)、以及表格與文字混合資料集上均取得最先進結果。

影響範圍

TabPFN 系列的核心主張是「以預訓練的貝葉斯先驗取代針對每個資料集的超參數搜尋」。TabPFN-3 的擴展讓這個主張從小型表格資料推廣到真實世界規模,對需要快速原型但資料量大的 ML 工程情境(如特徵工程驗證、ablation study)具有直接的實用價值。

原始來源:arXiv:2605.13986PriorLabs 技術報告


DeepSeek-V4-Flash 讓 LLM 行為操控再次值得探索

Sean Goedecke Blog · 2026-05-17

Sean Goedecke 分析了 DeepSeek-V4-Flash 開放後,activation steering(激活操控)這個領域對個人工程師的可行性變化。過去 steering 需要專有模型存取或能力不足的開源替代品;V4-Flash 透過 DwarfStar 4(最佳化的 llama.cpp 變體)讓個人可以實際操作這項技術。

技術原理

基礎的 steering vector 提取方式如下:對同一組提示跑兩次推理,一次是正常提示,一次附加如「請簡短回應」的指令;比對兩次的 activation 矩陣並相減,提取出對應概念的向量;推理時將此向量加回 activation,即可複現該行為,不需要重新訓練模型

進階方向包括 Anthropic 的 Sparse Autoencoder 方法:訓練次級模型識別 activation 中的行為模式,將這些「features」對應到個別概念,捕捉比直接向量相減更深層的結構。這需要更多計算資源,但能識別更細緻的語意特徵。

現實限制

Goedecke 對應用場景持保留態度:大多數 steering 應用仍然輸給直接 prompting;對於「智識」這類高度抽象的目標概念,操控效果接近於修改模型權重的難度。Steering 的潛在優勢在於需要大量 token 才能用提示表達的概念——透過向量可以更精確地注入,但實際可行性仍待驗證。

原始來源:Sean Goedecke — Steering Vectors


End of article
0
Would love your thoughts, please comment.x
()
x