AI 前沿 2026 年 5 月 10 日

2026-05-10 — SLAM LLM 浮水印 100% 偵測、LLM 代理破壞文件 DELEGATE-52、Token-Selective Attention 省 23%

primary=https://arxiv.org/abs/2605.05443 primary=https://arxiv.org/abs/2604.15597 primary=https://arxiv.org/abs/2605.05222

SLAM:以語言結構幾何嵌入 LLM 浮水印,達成 100% 偵測率

arXiv cs.CL · 2026-05-08

來自 Fabrice Harel-Canada 與 Amit Sahai 的論文 SLAM(Structural Linguistic Activation Marking)arXiv:2605.05443)提出一種新型白盒 LLM 浮水印方法,在 Gemma-2 2B 與 9B 模型上達到 100% 偵測率,且文字品質損耗僅 1–2 reward point,遠優於現有 KGW、EWD、Unigram 方法的 7.5–11.5 point 損耗。

核心改動

傳統浮水印方法透過干預 token 採樣分佈來嵌入記號,不可避免地影響文字品質。SLAM 改從 語言結構幾何下手:利用 Sparse Autoencoder 找出殘差流(residual stream)中對應語法特徵的方向向量(語態、時態、子句順序等),在生成時對這些結構方向做因果干預(causal steering),而不觸碰 token 的採樣機制。

浮水印被「寫入語言結構的幾何排列」,詞彙選擇與語意不受約束,因此自然度與多樣性幾乎不受影響。

規格細節

實驗在 Gemma-2 2B 和 9B 上進行,偵測率 100%,品質成本 1–2 reward points(相較 KGW 的 7.5 points、Unigram 的 11.5 points)。SLAM 的弱點在於對語法重組型改寫(paraphrase that restructures syntax)的抵抗力較弱,但對逐字替換(word-level edits)具有韌性——與 token-distribution 方法形成互補,可組合使用。

影響範圍

此方法為需要同時維持輸出品質與版權追蹤的 LLM 部署提供了新選項。白盒特性要求模型內部存取,適合提供者側部署;未來研究方向包括提升對語法重組的抵抗性,以及在更大規模模型上的驗證。

原始來源:arXiv:2605.05443


LLM 作為代理人時會靜默破壞文件:DELEGATE-52 基準測試

arXiv · 2026-04-30

Philippe Laban、Tobias Schnabel、Jennifer Neville 在論文 arXiv:2604.15597 中以 DELEGATE-52 基準(52 個專業領域、19 個 LLM)測試當前模型長期文件代理工作的可靠性,發現前沿模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)在長工作流程中平均破壞約 25% 的文件內容,且錯誤以稀疏但嚴重的形式累積,不易被使用者即時發現。

漏洞機制

研究者定義「破壞」為:LLM 在持續代理編輯過程中引入非預期的錯誤與不必要修改。這些錯誤並非集中發生,而是在多輪互動中逐步複合累積(compounding errors)。實驗顯示:文件越長、互動輪次越多、干擾檔案(distractor files)越多,破壞程度越嚴重。

規格細節

DELEGATE-52 涵蓋從程式碼、晶體學到樂譜的 52 個專業領域,測試 19 個 LLM 的長期代理表現。Agentic tool use 並未改善可靠性——即便前沿模型也無法勝任持續性文件代理任務。非前沿模型的表現顯著更差。

影響範圍

此研究對當前廣泛討論的「AI 代理人取代人力知識工作」提出實証質疑:在無人監督的持續文件代理場景中,當前 LLM 不具備足夠可靠性。研究者建議在 agentic 系統設計中保留人工審查節點,特別是在長工作流程的關鍵里程碑處。

原始來源:arXiv:2604.15597


Token-Selective Attention:讓 Transformer 依 Token 複雜度自適應計算深度

arXiv cs.LG · 2026-05-08

Ahmed Abdelmuniem Abdalla Mohammed 在論文 arXiv:2605.05222 中提出 Token-Selective Attention(TSA),讓 Transformer 依每個 token 的複雜度動態分配計算層數,在字符級語言建模任務(Tiny-Shakespeare、enwik8)上省去 14–23% 的 token-layer 運算,品質損耗低於 0.5%。

核心改動

TSA 在 Transformer block 之間插入輕量 gating layer,以兩層 MLP 產生連續的 halting probability。整個路由機制端對端可微,僅增加 1.7% 參數量,不需修改基礎架構。關鍵發現是:即使不加任何正則化,task-loss 梯度本身就會驅動 router 跳過約 20% 的 token-layer 操作。

規格細節

與 early exit 方法相比,同等效率水準下 TSA 達到 0.7% 更低的 validation loss。學到的路由策略可直接轉換為稀疏執行(sparse execution),實現推論階段的真實 wall-clock 加速,而不只是理論上的 FLOPs 減少。

影響範圍

此方法特別適合部署在計算資源受限的環境,或需要在固定預算下提升模型深度的場景。由於路由是可學習的,理論上可擴展至更大規模模型,未來研究重點在於跨 domain 的泛化性驗證。

原始來源:arXiv:2605.05222


End of article
0
Would love your thoughts, please comment.x
()
x