量化 LLM 的幻覺在中間層線性可解:0.904–1.000 AUROC 的靜態偵測
arXiv cs.LG · 2026-06-04
來自 arXiv 的最新研究(arXiv:2606.02628)顯示,在以 4-bit NF4 格式量化的 7B–8B 語言模型中,單一中間層的線性探針即可達到 0.904–1.000 AUROC 的幻覺偵測準確率,遠超過基於取樣一致性或注意力熵的方法。這一發現揭示了幻覺在模型內部表示中的結構性可解性。
實驗設計
研究選取三個代表性的 7B–8B 指令調整模型:Llama-3.1-8B-Instruct、Mistral-7B-Instruct、Qwen2.5-7B-Instruct,均以 bitsandbytes 進行 4-bit NF4 量化。每層的隱藏狀態(hidden state)在生成最後一個 token 時提取,接著在四個幻覺基準資料集上評估:TruthfulQA、HaluEval、FaithDial,以及 FactScore 子集。
對比基準方法涵蓋:
- 線性探針(Logistic Regression on single-layer hidden state)
- MLP 探針(兩層非線性分類器)
- INSIDE EigenScore(基於隱藏狀態主成分離散度)
- Self-consistency(同一問題多次取樣一致性)
- Attention entropy(注意力分布的熵值)
主要結果
線性探針表現壓倒性優勢:在最優層上,三個模型的線性探針 AUROC 分別達到 0.981、0.904 和 1.000。MLP 探針幾乎從未比線性探針高出超過 0.01 AUROC,印證了幻覺特徵在隱藏空間中呈近似線性分布。相比之下,Self-consistency 最高僅達 0.541 AUROC,INSIDE EigenScore 為 0.61–0.74,注意力熵為 0.866–0.941(但有可變性)。
最佳偵測層的規律性:最有效的探針層集中在特定位置——Llama 與 Mistral(32 層)的最優層為第 13–18 層,Qwen(28 層)為第 19–25 層。這一「中間偏後」的規律跨模型一致,表明幻覺訊號在模型完成主要語義計算後、進入最終語言建模層之前達到最強的線性可分性。
對量化的影響
在量化模型上取得這樣的偵測準確率尤為值得注意。量化通常被認為會引入不規則的表示誤差,但本研究顯示幻覺的線性特徵在 4-bit 量化後依然保留。注意力熵在第一層即可提供 0.866–0.941 AUROC 的互補訊號,且無需推論開銷,兩者結合後理論上可構建一個在生成早期就觸發的輕量幻覺偵測閘。
Gemma 4 12B:無編碼器設計的統一多模態模型,16GB RAM 可跑
Google DeepMind · 2026-06-03
Google DeepMind 發布 Gemma 4 12B,這是 Gemma 系列首個原生支援文字、視覺與音訊三模態輸入的中型模型。與傳統多模態模型依賴獨立視覺編碼器不同,Gemma 4 12B 完全去除了編碼器(encoder-free),三種模態的輸入均直接注入 LLM 主幹。
架構:無編碼器的多模態設計
傳統多模態 LLM(如 LLaVA、Flamingo)的架構是「視覺編碼器 + 投影層 + 語言模型」的串接設計,不同模態各自有獨立的前處理流水線。Gemma 4 12B 的設計哲學是最小化模態特定的前處理:
- 視覺輸入:以「單一矩陣乘法 + 位置編碼 + 層正規化」組成的輕量嵌入模組取代完整視覺 transformer。影像 patches 直接投影至與文字 token 相同的維度空間。
- 音訊輸入:原始音訊訊號(波形)直接投影至 token 維度空間,無需梅爾頻譜或語音專用特徵提取器。這是 Gemma 系列首個原生音訊支援。
- 文字輸入:沿用標準 tokenizer 路徑,三種模態在 token 層面統一表示後共享同一個 decoder-only transformer 主幹。
效能與資源需求
Gemma 4 12B 在標準基準(MMLU、HumanEval、MATH500)上的表現接近 Gemma 4 26B MoE 模型,但記憶體佔用不到一半。以 bfloat16 精度計算,12B 模型的 VRAM 需求約 24GB;以 4-bit 量化後可在 16GB RAM 的消費級硬體(M2/M3 MacBook Pro、RTX 4080)上執行推論。
模型附帶 Multi-Token Prediction(MTP)speculative decoding draft heads,在支援 MTP 的推論框架下可顯著降低延遲。
可用性
預訓練(pt)與指令微調(it)權重均以 Apache 2.0 授權在 Hugging Face 與 Kaggle 上釋出,支援 Hugging Face Transformers、llama.cpp、MLX、SGLang 與 vLLM。
ALAR:選擇性潛在推理讓 LLM Agent 在工具調用場景減少 84.6% 的 token 消耗
arXiv cs.CL · 2026-06-04
arXiv 最新論文(arXiv:2606.02871)提出 Adaptive Latent Agentic Reasoning(ALAR),一個雙模推理框架:對「常規決策」使用壓縮的潛在推理,對「複雜決策」才切換至完整的 Chain-of-Thought(CoT)文字推理。在工具調用任務上,ALAR 減少 84.6% 的 token 消耗,同時維持可比的任務成功率。
核心概念:潛在推理是什麼
「潛在推理」(latent reasoning)在此指:模型不產生可見的推理文字,而是直接映射輸入至動作選擇,推理資訊被壓縮在模型的中間層激活中。ALAR 透過以 agent 的動作選擇作為監督錨(supervision anchor)訓練一個潛在推理路徑——只需要最終的動作標籤,不需要推理鏈標注。
與傳統 KD(Knowledge Distillation)不同,ALAR 的潛在模式不是從 CoT 蒸餾而來,而是讓模型自行學習哪些步驟可以「內化」而不需外化文字。
自適應切換機制
ALAR 的切換策略是透過訓練一個輕量的「難度評估器」,在每個 agent step 預測當前決策是否超出潛在推理的容量。評估器以上一個 step 的隱藏狀態和任務歷史作為輸入,輸出一個二元信號:
- 「簡單」:使用潛在模式直接輸出動作
- 「困難」:切換至完整 CoT,將推理鏈產生為可見文字後再決策
這個設計的關鍵洞察是:在一個多步 agent 任務中,大多數中間步驟(如工具調用確認、參數格式化、狀態更新)都是「常規」的,只有少數需要真正的多步推理。
實驗結果
在 agentic search 任務上,ALAR 減少 43.6% 的 token 消耗;在工具調用場景(API 呼叫序列規劃)上減少 84.6%,且任務準確率「相當或更好」。論文沒有細報所有數值,但此比較基準是同等級別的完整 CoT agent。