δ-Mem:以 8×8 狀態矩陣為 LLM 加裝線上記憶體
arXiv cs.LG · 2026-05-17
arXiv 論文 2605.12357 提出 δ-Mem(Delta-Mem),一套輕量的記憶體增強機制,讓 LLM 能在不擴張 context window、不重新訓練的情況下,累積並複用歷史資訊。其核心是維護一個固定大小的聯想記憶體狀態矩陣,透過 delta-rule 更新,將壓縮後的歷史注入 attention 計算。
架構細節
δ-Mem 由三個元件組成:凍結的全注意力骨幹(原始 LLM,權重不變)、固定大小的線上狀態矩陣(實驗中採用 8×8)、以及低秩修正生成系統。推理時,狀態矩陣被讀出並轉換為對骨幹 attention 計算的低秩修正量,無需更動模型架構或權重。
更新規則採用 delta-rule——一種源自神經科學的線上學習規則,使狀態矩陣能在不進行完整反向傳播的情況下,以極低的計算成本持續更新。8×8 的矩陣大小使得計算開銷幾乎可以忽略不計,整個機制對推理延遲的影響極小。
效能結果
| 基準測試 | 提升倍率 |
|---|---|
| 一般平均(vs. 凍結骨幹) | 1.10× |
| 一般平均(vs. 現有基線) | 1.15× |
| MemoryAgentBench | 1.31× |
| LoCoMo | 1.20× |
在記憶體密集型任務(MemoryAgentBench、LoCoMo)上的提升最為顯著,同時保留了一般能力,不出現因記憶體注入導致的原有任務退化。
影響範圍
δ-Mem 的設計切入點是「記憶體」問題,而非「長度」問題——它不試圖讓模型讀更長的 context,而是讓模型在 context 之外維護一個可持續累積的狀態。這個方向對長對話、持續任務、跨 session 的 agent 情境有直接意義,且不需要模型重訓,可疊加在現有已部署的 LLM 上。
原始來源:arXiv:2605.12357
TabPFN-3:表格資料基礎模型擴展至百萬行
PriorLabs / arXiv · 2026-05-13
PriorLabs 發布 arXiv:2605.13986 TabPFN-3 技術報告,將表格資料基礎模型的規模推至單 H100 上支援 100 萬筆訓練資料,並在 TabArena 基準上以單次前向傳遞超越所有競爭模型,包括調校 8 小時的 gradient-boosted tree 基線。
核心改動
TabPFN-3 的關鍵技術突破在兩個方向:縮減 KV cache 設計搭配 row-chunking,使模型可在記憶體受限環境下處理百萬級資料集;測試時計算縮放(test-time compute scaling)的引入,讓 TabPFN-3-Plus(Thinking 版本)在不到 AutoGluon 1.5 Extreme 十分之一的執行時間內超越其表現。
與前代 TabPFN-2.5 相比,推理速度快達 20 倍,同時在多類別資料集(many-class datasets)、關聯資料(RelBenchV1 新 SOTA)、以及表格與文字混合資料集上均取得最先進結果。
影響範圍
TabPFN 系列的核心主張是「以預訓練的貝葉斯先驗取代針對每個資料集的超參數搜尋」。TabPFN-3 的擴展讓這個主張從小型表格資料推廣到真實世界規模,對需要快速原型但資料量大的 ML 工程情境(如特徵工程驗證、ablation study)具有直接的實用價值。
DeepSeek-V4-Flash 讓 LLM 行為操控再次值得探索
Sean Goedecke Blog · 2026-05-17
Sean Goedecke 分析了 DeepSeek-V4-Flash 開放後,activation steering(激活操控)這個領域對個人工程師的可行性變化。過去 steering 需要專有模型存取或能力不足的開源替代品;V4-Flash 透過 DwarfStar 4(最佳化的 llama.cpp 變體)讓個人可以實際操作這項技術。
技術原理
基礎的 steering vector 提取方式如下:對同一組提示跑兩次推理,一次是正常提示,一次附加如「請簡短回應」的指令;比對兩次的 activation 矩陣並相減,提取出對應概念的向量;推理時將此向量加回 activation,即可複現該行為,不需要重新訓練模型。
進階方向包括 Anthropic 的 Sparse Autoencoder 方法:訓練次級模型識別 activation 中的行為模式,將這些「features」對應到個別概念,捕捉比直接向量相減更深層的結構。這需要更多計算資源,但能識別更細緻的語意特徵。
現實限制
Goedecke 對應用場景持保留態度:大多數 steering 應用仍然輸給直接 prompting;對於「智識」這類高度抽象的目標概念,操控效果接近於修改模型權重的難度。Steering 的潛在優勢在於需要大量 token 才能用提示表達的概念——透過向量可以更精確地注入,但實際可行性仍待驗證。