AI 前沿 2026 年 5 月 18 日

2026-05-18 — FeF-DLLM 離散擴散 +5pp、HarnessAudit Agent 安全稽核、DeepSeek Steering

primary=https://arxiv.org/abs/2605.14305 primary=https://arxiv.org/abs/2605.14271 primary=https://www.seangoedecke.com/steering-vectors/

FeF-DLLM:以前綴條件分解消除離散擴散語言模型的因式化誤差

arXiv cs.CL · 2026-05-18 · 論文 2605.14305

離散擴散語言模型(Discrete Diffusion LM)在每個去噪步驟中以獨立 token 預測近似真實的聯合後驗分布,此假設引入了「因式化誤差(factorization error)」。論文 2605.14305 提出 FeF-DLLM,改以前綴條件分解(prefix-conditioned factorization)取代,並結合 speculative decoding 壓低序列生成的額外計算成本。

核心改動

標準作法對 token 位置 i 的後驗分布做獨立預測:p(x_i | x_masked)。FeF-DLLM 改為自左至右依條件展開:p(x_i | x_1,...,x_{i-1}, x_masked),從理論上可採樣自真實聯合分布。序列化前綴條件帶來的計算開銷由 speculative decoding 吸收:先以快速草稿模型批次生成候選,再由驗證模型一次性接受或拒絕。

規格細節

作者提供了嚴格的理論推導,證明此方法採樣自真正的聯合分布,並推導出預期加速比的解析公式。在推理速度上,平均加速比為 3.86×(跨 GSM8K、MATH、HumanEval、MBPP);準確率平均提升 5.04 個百分點,在數學推理任務上增益最大。

影響範圍

離散擴散 LM 的研究在 2025–2026 年快速升溫,主要吸引力在於並行解碼與可控生成。然而因式化誤差是其相對自迴歸模型品質落差的主要原因之一。FeF-DLLM 在不增加模型參數、不修改訓練目標的前提下修正此問題,提供了一條改善生成品質與推理速度的雙贏路徑,適用於任何既有的離散擴散模型。

原始來源:arXiv 2605.14305


HarnessAudit:稽核 LLM Agent 執行過程中的安全邊界違規

arXiv cs.AI · 2026-05-18 · 論文 2605.14271

當前 LLM agent 安全評估普遍只檢查最終輸出,忽略了中途軌跡中的違規行為。論文 2605.14271 提出 HarnessAudit,一個審計完整執行軌跡的框架,專注於 boundary compliance、execution fidelity 與 system stability,以 210 個涵蓋八個真實場景的 task 構建基準測試集。

漏洞機制

標準安全評估的盲點在於:agent 可能回答正確的同時存取了未授權資源或在 agent 間洩漏資訊。這類「中途違規」不會出現在最終輸出中,傳統評估因此無法偵測。HarnessAudit 對完整軌跡每個步驟逐一稽核,標記資源存取越界、跨 agent 資訊流動,以及與任務目標偏離的執行分支。

主要發現

  • 任務完成率與安全執行率無相關性:完成任務不等於安全執行,兩者相互獨立。
  • 違規隨軌跡長度累積:越長的執行序列累積的邊界違規越多,即使每步違規率相似。
  • 多 agent 協作大幅擴大風險面:harness 架構設計決定了安全部署邊界,單 agent 系統的安全保證無法直接遷移至多 agent 設定。
  • 違規集中在資源存取與跨 agent 資訊轉移兩類操作。

影響範圍

此研究對生產環境的 agent 部署具有直接意義:僅以「任務是否完成」作為安全代理指標是不充分的。harness 層的設計需要獨立的安全審計流程,而非依賴模型層的 alignment 訓練。框架的八個場景覆蓋程式碼執行、網頁瀏覽、API 呼叫等常見 agent 工具類型。

原始來源:arXiv 2605.14271


DeepSeek-V4-Flash 讓 LLM Activation Steering 重新值得關注

seangoedecke.com · 2026-05-17

Activation steering(激活操控)是一種在推理期間直接干預模型內部狀態的技術:從一對對比提示中提取概念向量,再疊加至目標推理的激活值,以達到提示詞無法輕易觸及的行為改變。過去此技術因需要本地模型存取而難以實用;DeepSeek-V4-Flash 作為第一個在代理編程任務上具備前沿競爭力的本地可跑模型,改變了這個限制。

技術機制

基礎作法是找一組配對提示(如「正常回應」vs「簡潔回應」),分別通過模型取得中間層激活,兩者差值即為「簡潔性」的 steering vector。推理時將此向量按比例加至對應層的激活,模型行為向目標概念偏移。與提示工程不同的是,steering 作用於 token prediction 之前的特徵空間,可改變訓練內化的行為,如拒絕(refusal)模式。

實際效果與限制

DwarfStar 4 專案已將 steering 整合為一等功能,作者測試了移除拒絕行為等場景。實際效果是:多數能用 steering 達成的改變,精確的提示詞同樣可以做到;真正有差異的是訓練固化的行為——這些行為提示詞無法可靠地推翻,但 steering 可以。更激進的目標(如顯著改變人格或知識)目前仍更適合透過 fine-tuning 達成,steering 在此能量受限。

影響範圍

DeepSeek-V4-Flash 的出現使本地前沿模型的 steering 實驗門檻降至消費級硬體。隨著更多足夠強大的開放模型出現,activation steering 可能從研究工具演變為工程工具箱的一部分,特別是在需要繞過訓練內建限制、或需要快速調整推理風格而不想 fine-tuning 的場景。

原始來源:seangoedecke.com


End of article
0
Would love your thoughts, please comment.x
()
x