2026-06-16 — Boltzmann注意力、幻覺最速偵測、跨版本相容表示

玻爾茲曼注意力：用 Ising 模型讓多頭注意力學會協同

arxiv.org · 2026-06-15

Transformer 的 softmax 注意力機制在計算每個位置的權重時相互獨立，各頭之間缺乏顯式的交互約束。Kim 與 Park 在 arXiv:2606.12478 中借用統計力學的 Ising 模型，為注意力機制引入可學習的成對耦合參數（pairwise coupling），使位置之間能夠產生協同或對抗效應，而非各自獨立決定注意力得分。

背景

標準 softmax 注意力對每個位置的得分彼此獨立計算，query-key 點積決定一切。這種「各自為政」的設計忽略了序列中位置間可能存在的結構化相互依賴：若 token A 高度關注 token B，這件事本身應影響其他位置的注意力分配。多頭設計雖能從不同角度捕捉資訊，卻無法在單一頭內部對注意力分佈施加交互約束。

Ising 模型描述磁性粒子自旋之間的能量交互，每個自旋的穩定狀態由鄰近自旋共同決定。將此物理直覺遷移到注意力機制，意味著每個位置的注意力權重不再只由 query-key 點積決定，還受到系統整體能量最小化目標的約束。

核心方法

Boltzmann Attention 將注意力分佈建模為 Ising 系統的 Boltzmann 分佈。標準注意力的 logit 向量扮演「局部場（local field）」角色，而額外引入的可學習成對耦合矩陣則捕捉位置間的交互能量項，最終注意力分佈透過對應 Ising 配分函數的 Boltzmann 加權推導而出。

訓練方面，從玻爾茲曼分佈中精確採樣代價高昂，作者提出兩條可行路徑：其一是平均場近似（mean-field approximation），計算複雜度接近標準注意力；其二是以絕熱量子退火（diabatic quantum annealing）求解 Ising 基態，為未來利用量子硬體加速注意力開闢了路徑。耦合矩陣本身以標準反向傳播更新，可直接嵌入既有 Transformer 架構。

實驗結果

實驗在字元級語言建模與合成括號匹配任務上進行：

相較 softmax 注意力，序列越長優勢越明顯，符合成對耦合在長距離依賴場景中更能發揮的理論預期。
四路消融實驗確認效能提升主要來自成對耦合本身，而非其他架構調整。
量子退火路徑在括號匹配任務上達到與精確 Boltzmann 計算相當的準確率，驗證量子硬體作為訓練加速器的可行性。

這項工作橫跨機器學習、統計力學（cond-mat.stat-mech）與量子物理（quant-ph）三個領域，為注意力機制與量子計算的交叉研究提供了具體的理論基礎。

原始來源：arXiv:2606.12478

幻覺剛開始就偵測到：LLM 串流輸出的最速變點偵測理論與實作

arxiv.org · 2026-06-15

LLM 在串流生成時一旦開始「幻覺」，往往一發不可收拾。Igor Itkin 在 arXiv:2606.12476 中將此問題重新框架為最速變點偵測（quickest change detection, QCD），強調偵測延遲（幻覺出現到警報觸發之間的 token 數）才是評估偵測系統實用性的核心指標，並推導出資訊理論下界供現有方法對照。

背景

現有幻覺偵測方法多以 F1 或 AUC 衡量性能，這類指標完全掩蓋了延遲結構。在串流生成場景中，若系統在幻覺出現 30 個 token 後才觸發警報，中間已輸出的錯誤內容可能造成難以挽回的誤導。傳統分類框架並不追蹤這個代價。QCD 框架引入 Lorden 下界，為「在給定誤報率下任何因果偵測器能達到的最小延遲」提供嚴格的資訊理論基準。

核心方法

論文首先在 RAGTruth 資料集上驗證一階 Markov 鏈潛在狀態模型的適用性：每個 token 的「幻覺狀態」可由前一個 token 合理預測。此假設成立後，整套 QCD 理論得以嚴格套用，從而推導出 Lorden 下界的精確數值。

在此框架下，論文展示因果循環標記器（causal recurrent labeler）實質上等價於帶可學習增量函數的 CUSUM（累積和）偵測器——即 QCD 理論中的最優線上偵測演算法。Donsker-Varadhan 變分公式則給出特徵所能提供的散度上界，讓研究者得以量化偵測器距理論極限的差距。

實驗結果

在 RAGTruth 資料集、誤報率 0.01 的設定下：

Lorden 理論下界：約 1.3 tokens（任何因果偵測器的極限）
可學習 CUSUM 偵測器：11–13 tokens 偵測延遲
線性基線偵測器：31 tokens 偵測延遲

可學習偵測器比線性基線縮短約 60% 的延遲，但仍是理論下界的 8–10 倍。學習到的分數僅利用了特徵所含理論散度的約 1/4.5，說明特徵工程與偵測架構均有相當改進空間。論文還指出，分類 AUC 高的模型有時偵測延遲反而更長，因為它傾向於等待更多 token 確認——這種取捨在實時生成場景中尤為關鍵。

原始來源：arXiv:2606.12476

模型更新不重算特徵：靜態表示與跨版本相容性的統一理論

arxiv.org · 2026-06-15

圖像檢索系統每次更新模型，都面臨一個高成本問題：新舊模型的特徵向量通常不相容，整個圖庫必須重新編碼。Biondi 等人在 arXiv:2606.12488 中指出，相容性的根本來源是表示的靜態性（stationarity），並提出兼具靜態性與判別力的訓練方法。論文已獲 TPAMI 2026 接受，是 CVPR 2024 版本的完整延伸。

背景

「相容表示學習（compatible representation learning）」的目標是讓新模型的特徵能直接與舊模型建立的索引互通，無需重建圖庫。現有方法缺乏形式化保證，往往難以在「相容性」與「判別力」之間取得平衡。此工作的核心貢獻在於從理論上建立兩者的橋梁：若特徵空間具備靜態性，相容性便自動成立。

核心方法

論文的理論主張是：若分類器的原型（prototype）固定在 d-Simplex 的頂點上，學習到的特徵表示自然滿足靜態性，進而隱含相容性的形式定義。然而單純使用交叉熵損失雖能保證靜態性，特徵的高階判別結構卻不足。

為此，作者提出將交叉熵損失與對比損失以凸組合方式結合，在維持 d-Simplex 靜態性約束的同時，透過對比學習捕捉更豐富的類內與類間關係。整套流程支援序列式微調與偶發性模型完整替換兩種場景，對應真實部署中持續學習的需求。

實驗結果

在標準圖像檢索基準上，主要貢獻如下：

從理論上嚴格建立「靜態性蘊含相容性」的連結，填補了先前工作缺乏形式化保證的空缺。
對比損失的引入在不破壞靜態性的前提下顯著提升特徵判別能力，解決了單純 d-Simplex 分類器判別力不足的問題。
在序列微調與模型替換兩種場景下均維持相容性，適用於持續更新的生產環境。

程式碼已開源於 github.com/miccunifi/iamcl2r。靜態表示為需要持續演進視覺模型、又無法承擔全庫重算成本的系統提供了一條理論有據的實用路徑。

原始來源：arXiv:2606.12488

End of article

玻爾茲曼注意力：用 Ising 模型讓多頭注意力學會協同

背景

核心方法

實驗結果

幻覺剛開始就偵測到：LLM 串流輸出的最速變點偵測理論與實作

背景

核心方法

實驗結果

模型更新不重算特徵：靜態表示與跨版本相容性的統一理論

背景

核心方法

實驗結果

More on this topic