2026-05-17 — δ-Mem LLM 線上記憶體、TabPFN-3 百萬行表格模型、DeepSeek 激活操控

δ-Mem：以 8×8 狀態矩陣為 LLM 加裝線上記憶體

arXiv cs.LG · 2026-05-17

arXiv 論文 2605.12357 提出 δ-Mem（Delta-Mem），一套輕量的記憶體增強機制，讓 LLM 能在不擴張 context window、不重新訓練的情況下，累積並複用歷史資訊。其核心是維護一個固定大小的聯想記憶體狀態矩陣，透過 delta-rule 更新，將壓縮後的歷史注入 attention 計算。

架構細節

δ-Mem 由三個元件組成：凍結的全注意力骨幹（原始 LLM，權重不變）、固定大小的線上狀態矩陣（實驗中採用 8×8）、以及低秩修正生成系統。推理時，狀態矩陣被讀出並轉換為對骨幹 attention 計算的低秩修正量，無需更動模型架構或權重。

更新規則採用 delta-rule——一種源自神經科學的線上學習規則，使狀態矩陣能在不進行完整反向傳播的情況下，以極低的計算成本持續更新。8×8 的矩陣大小使得計算開銷幾乎可以忽略不計，整個機制對推理延遲的影響極小。

效能結果

基準測試	提升倍率
一般平均（vs. 凍結骨幹）	1.10×
一般平均（vs. 現有基線）	1.15×
MemoryAgentBench	1.31×
LoCoMo	1.20×

在記憶體密集型任務（MemoryAgentBench、LoCoMo）上的提升最為顯著，同時保留了一般能力，不出現因記憶體注入導致的原有任務退化。

影響範圍

δ-Mem 的設計切入點是「記憶體」問題，而非「長度」問題——它不試圖讓模型讀更長的 context，而是讓模型在 context 之外維護一個可持續累積的狀態。這個方向對長對話、持續任務、跨 session 的 agent 情境有直接意義，且不需要模型重訓，可疊加在現有已部署的 LLM 上。

原始來源：arXiv:2605.12357

TabPFN-3：表格資料基礎模型擴展至百萬行

PriorLabs / arXiv · 2026-05-13

PriorLabs 發布 arXiv:2605.13986 TabPFN-3 技術報告，將表格資料基礎模型的規模推至單 H100 上支援 100 萬筆訓練資料，並在 TabArena 基準上以單次前向傳遞超越所有競爭模型，包括調校 8 小時的 gradient-boosted tree 基線。

核心改動

TabPFN-3 的關鍵技術突破在兩個方向：縮減 KV cache 設計搭配 row-chunking，使模型可在記憶體受限環境下處理百萬級資料集；測試時計算縮放（test-time compute scaling）的引入，讓 TabPFN-3-Plus（Thinking 版本）在不到 AutoGluon 1.5 Extreme 十分之一的執行時間內超越其表現。

與前代 TabPFN-2.5 相比，推理速度快達 20 倍，同時在多類別資料集（many-class datasets）、關聯資料（RelBenchV1 新 SOTA）、以及表格與文字混合資料集上均取得最先進結果。

影響範圍

TabPFN 系列的核心主張是「以預訓練的貝葉斯先驗取代針對每個資料集的超參數搜尋」。TabPFN-3 的擴展讓這個主張從小型表格資料推廣到真實世界規模，對需要快速原型但資料量大的 ML 工程情境（如特徵工程驗證、ablation study）具有直接的實用價值。

原始來源：arXiv:2605.13986、PriorLabs 技術報告

DeepSeek-V4-Flash 讓 LLM 行為操控再次值得探索

Sean Goedecke Blog · 2026-05-17

Sean Goedecke 分析了 DeepSeek-V4-Flash 開放後，activation steering（激活操控）這個領域對個人工程師的可行性變化。過去 steering 需要專有模型存取或能力不足的開源替代品；V4-Flash 透過 DwarfStar 4（最佳化的 llama.cpp 變體）讓個人可以實際操作這項技術。

技術原理

基礎的 steering vector 提取方式如下：對同一組提示跑兩次推理，一次是正常提示，一次附加如「請簡短回應」的指令；比對兩次的 activation 矩陣並相減，提取出對應概念的向量；推理時將此向量加回 activation，即可複現該行為，不需要重新訓練模型。

進階方向包括 Anthropic 的 Sparse Autoencoder 方法：訓練次級模型識別 activation 中的行為模式，將這些「features」對應到個別概念，捕捉比直接向量相減更深層的結構。這需要更多計算資源，但能識別更細緻的語意特徵。

現實限制

Goedecke 對應用場景持保留態度：大多數 steering 應用仍然輸給直接 prompting；對於「智識」這類高度抽象的目標概念，操控效果接近於修改模型權重的難度。Steering 的潛在優勢在於需要大量 token 才能用提示表達的概念——透過向量可以更精確地注入，但實際可行性仍待驗證。

原始來源：Sean Goedecke — Steering Vectors

End of article

δ-Mem：以 8×8 狀態矩陣為 LLM 加裝線上記憶體

架構細節

效能結果

影響範圍

TabPFN-3：表格資料基礎模型擴展至百萬行

核心改動

影響範圍

DeepSeek-V4-Flash 讓 LLM 行為操控再次值得探索

技術原理

現實限制

More on this topic