2026-05-10 — SLAM LLM 浮水印 100% 偵測、LLM 代理破壞文件 DELEGATE-52、Token-Selective Attention 省 23%

SLAM：以語言結構幾何嵌入 LLM 浮水印，達成 100% 偵測率

arXiv cs.CL · 2026-05-08

來自 Fabrice Harel-Canada 與 Amit Sahai 的論文 SLAM（Structural Linguistic Activation Marking）（arXiv:2605.05443）提出一種新型白盒 LLM 浮水印方法，在 Gemma-2 2B 與 9B 模型上達到 100% 偵測率，且文字品質損耗僅 1–2 reward point，遠優於現有 KGW、EWD、Unigram 方法的 7.5–11.5 point 損耗。

核心改動

傳統浮水印方法透過干預 token 採樣分佈來嵌入記號，不可避免地影響文字品質。SLAM 改從 語言結構幾何下手：利用 Sparse Autoencoder 找出殘差流（residual stream）中對應語法特徵的方向向量（語態、時態、子句順序等），在生成時對這些結構方向做因果干預（causal steering），而不觸碰 token 的採樣機制。

浮水印被「寫入語言結構的幾何排列」，詞彙選擇與語意不受約束，因此自然度與多樣性幾乎不受影響。

規格細節

實驗在 Gemma-2 2B 和 9B 上進行，偵測率 100%，品質成本 1–2 reward points（相較 KGW 的 7.5 points、Unigram 的 11.5 points）。SLAM 的弱點在於對語法重組型改寫（paraphrase that restructures syntax）的抵抗力較弱，但對逐字替換（word-level edits）具有韌性——與 token-distribution 方法形成互補，可組合使用。

影響範圍

此方法為需要同時維持輸出品質與版權追蹤的 LLM 部署提供了新選項。白盒特性要求模型內部存取，適合提供者側部署；未來研究方向包括提升對語法重組的抵抗性，以及在更大規模模型上的驗證。

原始來源：arXiv:2605.05443

LLM 作為代理人時會靜默破壞文件：DELEGATE-52 基準測試

arXiv · 2026-04-30

Philippe Laban、Tobias Schnabel、Jennifer Neville 在論文 arXiv:2604.15597 中以 DELEGATE-52 基準（52 個專業領域、19 個 LLM）測試當前模型長期文件代理工作的可靠性，發現前沿模型（Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4）在長工作流程中平均破壞約 25% 的文件內容，且錯誤以稀疏但嚴重的形式累積，不易被使用者即時發現。

漏洞機制

研究者定義「破壞」為：LLM 在持續代理編輯過程中引入非預期的錯誤與不必要修改。這些錯誤並非集中發生，而是在多輪互動中逐步複合累積（compounding errors）。實驗顯示：文件越長、互動輪次越多、干擾檔案（distractor files）越多，破壞程度越嚴重。

規格細節

DELEGATE-52 涵蓋從程式碼、晶體學到樂譜的 52 個專業領域，測試 19 個 LLM 的長期代理表現。Agentic tool use 並未改善可靠性——即便前沿模型也無法勝任持續性文件代理任務。非前沿模型的表現顯著更差。

影響範圍

此研究對當前廣泛討論的「AI 代理人取代人力知識工作」提出實証質疑：在無人監督的持續文件代理場景中，當前 LLM 不具備足夠可靠性。研究者建議在 agentic 系統設計中保留人工審查節點，特別是在長工作流程的關鍵里程碑處。

原始來源：arXiv:2604.15597

Token-Selective Attention：讓 Transformer 依 Token 複雜度自適應計算深度

arXiv cs.LG · 2026-05-08

Ahmed Abdelmuniem Abdalla Mohammed 在論文 arXiv:2605.05222 中提出 Token-Selective Attention（TSA），讓 Transformer 依每個 token 的複雜度動態分配計算層數，在字符級語言建模任務（Tiny-Shakespeare、enwik8）上省去 14–23% 的 token-layer 運算，品質損耗低於 0.5%。

核心改動

TSA 在 Transformer block 之間插入輕量 gating layer，以兩層 MLP 產生連續的 halting probability。整個路由機制端對端可微，僅增加 1.7% 參數量，不需修改基礎架構。關鍵發現是：即使不加任何正則化，task-loss 梯度本身就會驅動 router 跳過約 20% 的 token-layer 操作。

規格細節

與 early exit 方法相比，同等效率水準下 TSA 達到 0.7% 更低的 validation loss。學到的路由策略可直接轉換為稀疏執行（sparse execution），實現推論階段的真實 wall-clock 加速，而不只是理論上的 FLOPs 減少。

影響範圍

此方法特別適合部署在計算資源受限的環境，或需要在固定預算下提升模型深度的場景。由於路由是可學習的，理論上可擴展至更大規模模型，未來研究重點在於跨 domain 的泛化性驗證。

原始來源：arXiv:2605.05222

End of article

SLAM：以語言結構幾何嵌入 LLM 浮水印，達成 100% 偵測率

核心改動

規格細節

影響範圍

LLM 作為代理人時會靜默破壞文件：DELEGATE-52 基準測試

漏洞機制

規格細節

影響範圍

Token-Selective Attention：讓 Transformer 依 Token 複雜度自適應計算深度

核心改動

規格細節

影響範圍

More on this topic