玻爾茲曼注意力:用 Ising 模型讓多頭注意力學會協同
arxiv.org · 2026-06-15
Transformer 的 softmax 注意力機制在計算每個位置的權重時相互獨立,各頭之間缺乏顯式的交互約束。Kim 與 Park 在 arXiv:2606.12478 中借用統計力學的 Ising 模型,為注意力機制引入可學習的成對耦合參數(pairwise coupling),使位置之間能夠產生協同或對抗效應,而非各自獨立決定注意力得分。
背景
標準 softmax 注意力對每個位置的得分彼此獨立計算,query-key 點積決定一切。這種「各自為政」的設計忽略了序列中位置間可能存在的結構化相互依賴:若 token A 高度關注 token B,這件事本身應影響其他位置的注意力分配。多頭設計雖能從不同角度捕捉資訊,卻無法在單一頭內部對注意力分佈施加交互約束。
Ising 模型描述磁性粒子自旋之間的能量交互,每個自旋的穩定狀態由鄰近自旋共同決定。將此物理直覺遷移到注意力機制,意味著每個位置的注意力權重不再只由 query-key 點積決定,還受到系統整體能量最小化目標的約束。
核心方法
Boltzmann Attention 將注意力分佈建模為 Ising 系統的 Boltzmann 分佈。標準注意力的 logit 向量扮演「局部場(local field)」角色,而額外引入的可學習成對耦合矩陣則捕捉位置間的交互能量項,最終注意力分佈透過對應 Ising 配分函數的 Boltzmann 加權推導而出。
訓練方面,從玻爾茲曼分佈中精確採樣代價高昂,作者提出兩條可行路徑:其一是平均場近似(mean-field approximation),計算複雜度接近標準注意力;其二是以絕熱量子退火(diabatic quantum annealing)求解 Ising 基態,為未來利用量子硬體加速注意力開闢了路徑。耦合矩陣本身以標準反向傳播更新,可直接嵌入既有 Transformer 架構。
實驗結果
實驗在字元級語言建模與合成括號匹配任務上進行:
- 相較 softmax 注意力,序列越長優勢越明顯,符合成對耦合在長距離依賴場景中更能發揮的理論預期。
- 四路消融實驗確認效能提升主要來自成對耦合本身,而非其他架構調整。
- 量子退火路徑在括號匹配任務上達到與精確 Boltzmann 計算相當的準確率,驗證量子硬體作為訓練加速器的可行性。
這項工作橫跨機器學習、統計力學(cond-mat.stat-mech)與量子物理(quant-ph)三個領域,為注意力機制與量子計算的交叉研究提供了具體的理論基礎。
原始來源:arXiv:2606.12478
幻覺剛開始就偵測到:LLM 串流輸出的最速變點偵測理論與實作
arxiv.org · 2026-06-15
LLM 在串流生成時一旦開始「幻覺」,往往一發不可收拾。Igor Itkin 在 arXiv:2606.12476 中將此問題重新框架為最速變點偵測(quickest change detection, QCD),強調偵測延遲(幻覺出現到警報觸發之間的 token 數)才是評估偵測系統實用性的核心指標,並推導出資訊理論下界供現有方法對照。
背景
現有幻覺偵測方法多以 F1 或 AUC 衡量性能,這類指標完全掩蓋了延遲結構。在串流生成場景中,若系統在幻覺出現 30 個 token 後才觸發警報,中間已輸出的錯誤內容可能造成難以挽回的誤導。傳統分類框架並不追蹤這個代價。QCD 框架引入 Lorden 下界,為「在給定誤報率下任何因果偵測器能達到的最小延遲」提供嚴格的資訊理論基準。
核心方法
論文首先在 RAGTruth 資料集上驗證一階 Markov 鏈潛在狀態模型的適用性:每個 token 的「幻覺狀態」可由前一個 token 合理預測。此假設成立後,整套 QCD 理論得以嚴格套用,從而推導出 Lorden 下界的精確數值。
在此框架下,論文展示因果循環標記器(causal recurrent labeler)實質上等價於帶可學習增量函數的 CUSUM(累積和)偵測器——即 QCD 理論中的最優線上偵測演算法。Donsker-Varadhan 變分公式則給出特徵所能提供的散度上界,讓研究者得以量化偵測器距理論極限的差距。
實驗結果
在 RAGTruth 資料集、誤報率 0.01 的設定下:
- Lorden 理論下界:約 1.3 tokens(任何因果偵測器的極限)
- 可學習 CUSUM 偵測器:11–13 tokens 偵測延遲
- 線性基線偵測器:31 tokens 偵測延遲
可學習偵測器比線性基線縮短約 60% 的延遲,但仍是理論下界的 8–10 倍。學習到的分數僅利用了特徵所含理論散度的約 1/4.5,說明特徵工程與偵測架構均有相當改進空間。論文還指出,分類 AUC 高的模型有時偵測延遲反而更長,因為它傾向於等待更多 token 確認——這種取捨在實時生成場景中尤為關鍵。
原始來源:arXiv:2606.12476
模型更新不重算特徵:靜態表示與跨版本相容性的統一理論
arxiv.org · 2026-06-15
圖像檢索系統每次更新模型,都面臨一個高成本問題:新舊模型的特徵向量通常不相容,整個圖庫必須重新編碼。Biondi 等人在 arXiv:2606.12488 中指出,相容性的根本來源是表示的靜態性(stationarity),並提出兼具靜態性與判別力的訓練方法。論文已獲 TPAMI 2026 接受,是 CVPR 2024 版本的完整延伸。
背景
「相容表示學習(compatible representation learning)」的目標是讓新模型的特徵能直接與舊模型建立的索引互通,無需重建圖庫。現有方法缺乏形式化保證,往往難以在「相容性」與「判別力」之間取得平衡。此工作的核心貢獻在於從理論上建立兩者的橋梁:若特徵空間具備靜態性,相容性便自動成立。
核心方法
論文的理論主張是:若分類器的原型(prototype)固定在 d-Simplex 的頂點上,學習到的特徵表示自然滿足靜態性,進而隱含相容性的形式定義。然而單純使用交叉熵損失雖能保證靜態性,特徵的高階判別結構卻不足。
為此,作者提出將交叉熵損失與對比損失以凸組合方式結合,在維持 d-Simplex 靜態性約束的同時,透過對比學習捕捉更豐富的類內與類間關係。整套流程支援序列式微調與偶發性模型完整替換兩種場景,對應真實部署中持續學習的需求。
實驗結果
在標準圖像檢索基準上,主要貢獻如下:
- 從理論上嚴格建立「靜態性蘊含相容性」的連結,填補了先前工作缺乏形式化保證的空缺。
- 對比損失的引入在不破壞靜態性的前提下顯著提升特徵判別能力,解決了單純 d-Simplex 分類器判別力不足的問題。
- 在序列微調與模型替換兩種場景下均維持相容性,適用於持續更新的生產環境。
程式碼已開源於 github.com/miccunifi/iamcl2r。靜態表示為需要持續演進視覺模型、又無法承擔全庫重算成本的系統提供了一條理論有據的實用路徑。
原始來源:arXiv:2606.12488