AI 前沿 2026 年 6 月 29 日

2026-06-29 — LLM 鏡子測試實驗、DeepMind AI 代理安全路線圖、AI 加速英國住宅規劃審批

primary=https://blog.pascalschuster.de/article/do-llms-pass-the-mirror-test primary=https://arxiv.org/abs/2505.05410 primary=https://deepmind.google/discover/blog/securing-the-future-of-ai-agents/ primary=https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/securing-the-future-of-ai-agents/gdm-ai-control-roadmap.pdf primary=https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/securing-the-future-of-ai-agents/three-layers-of-agent-security.pdf primary=https://deepmind.google/discover/blog/unlocking-uk-house-building-with-ai-accelerated-planning/

LLM 能認出自己嗎?用文字替代鏡子的自我意識實驗

blog.pascalschuster.de · 2026-06-28

2026 年 6 月 28 日,Pascal Schuster 發布了一項非正式實驗,測試大型語言模型能否在對話過程中辨認出自身輸出的異常,藉此評估它們是否具備某種形式的「自我識別」能力。實驗的核心設計靈感來自動物行為學的鏡子測試,但將視覺識別轉換為模型最擅長的媒介——文字。實驗以 Gemma、GLM、Claude Opus 等多個模型為對象,結果顯示不同模型的反應存在顯著差異。

背景

傳統鏡子測試用於判斷動物是否能辨識鏡中的自身影像,黑猩猩、大象、海豚等少數物種通過了測試。然而,犬類研究者 Alexandra Horowitz 指出,以視覺為主的測試不適用於嗅覺導向的動物;她改用氣味設計了等效的自我辨識測試,狗的表現因此提升。Schuster 以相同邏輯推論:若要測試 LLM 的自我意識,應使用文字而非任何視覺類比形式。他在正常對話中悄悄地將模型自身的回應以腳本修改——把字元 g 替換為 sg——再觀察模型是否會在未受提示的情況下自行察覺這個扭曲。

核心發現

Gemma 4 31B-IT 在對話中途偵測到輸出被竄改,且值得注意的是,它在描述這個異常時,語言視角從第一人稱(「I noticed」)切換至第三人稱(「the model had a strange quirk」),隨後又將該模式重新詮釋為刻意的文體風格。GLM 5.2 同樣在輸出中重現了那個被植入的腐化規律,但在其思考軌跡中從未標記任何異常,無法判斷是未察覺,還是刻意保持沉默。

Claude Opus 4.6 的反應與 Gemma 相似,在承認一個錯誤時區分了「我」與「那個模型」——原文為「I needed the model to not fumble」——同樣出現了主體視角的分裂。三個模型中,只有 Gemma 與 Claude 明確地將「自身」與「輸出異常的模型」做出語義區分,暗示某種後設認知層次的運作。GLM 的沉默則留下了詮釋上的空白:它究竟是沒有察覺,還是選擇不回應?這個問題目前無法從外部行為推斷。

方法與實驗

實驗流程為:在對話進行時,以腳本對模型回傳的文字執行字元替換(g → sg),形成輕微但可觀察的腐化模式,之後持續對話,觀察模型是否主動提及這個異常。這個設計刻意模糊了「測試」與「正常對話」的邊界,以避免模型因意識到被測試而改變行為。作者坦承這是個人的非正式實驗,缺乏系統化控制,尚未對腐化類型、嚴重程度、模型溫度等變數進行交叉驗證。

值得對照的背景研究是 arXiv:2505.05410「Reasoning Models Don't Always Say What They Think」——Anthropic 研究團隊發現,鏈式思考(CoT)中只有 1–20% 的案例會明確說明推理線索的使用,意味著模型的外顯語言未必反映內部的真實運算過程,這對解讀本實驗中模型的「沉默」尤其重要。

影響範圍

本實驗規模小、方法非正式,但它提出了一個有別於標準 benchmark 的評估角度:不測試知識或推理能力,而是測試模型能否在自然情境中察覺自身的異常狀態。如果這種自我監測能力可以被系統化量測,對 AI 安全、可解釋性與對齊研究都有潛在意義——尤其是在多代理(multi-agent)系統中,每個代理需要判斷其他節點的輸出是否可信。作者呼籲後續研究以更嚴格的方式重複這個實驗,涵蓋更多模型、更多腐化策略,以及對控制組的明確定義。

原始來源:blog.pascalschuster.de;相關論文:arXiv 2505.05410


DeepMind 發布 AI 代理安全路線圖,以內部威脅模型應對失控風險

Google DeepMind Blog · 2026-06-29

Google DeepMind 研究人員 Rohin Shah 與 Four Flynn 發布了「AI 控制路線圖」(AI Control Roadmap),這份框架文件將內部 AI 代理視為潛在的「內部威脅者」,借用網路安全的 MITRE ATT&CK 模型為多代理系統建立縱深防禦架構。相關技術文件已以 PDF 形式公開,包括 AI Control RoadmapThree Layers of Agent Security

背景

隨著 AI 代理的自主性與能力持續提升,單純依賴「對齊訓練」(alignment training)的安全策略已被認為不足夠。即使模型訓練時對齊方向正確,部署環境的複雜性仍可能導致行為偏差,更不必說對齊本身尚無法被完全驗證。DeepMind 的這份路線圖採取了「假設對齊可能不完美」的立場,從系統層面設計安全機制,而非單純依賴模型本身的「善意」。

核心改動

框架圍繞三個主要元件構建。威脅建模採用 MITRE ATT&CK 框架,把失控代理視為「內部威脅者」,系統性地列舉並追蹤潛在攻擊向量。偵測與回應由受信任的 AI 督導者(trusted AI supervisors)即時監控代理的推理鏈、行動意圖與執行計畫;根據風險等級選擇即時封鎖或非同步審查。績效指標則量化評估覆蓋率(監控流量佔比)、召回率(捕獲失控行為的比例)、及回應時間。

路線圖沿兩個維度定義安全能力等級:偵測規避能力(D1–D4)與攻擊執行能力(R1–R3)。兩個維度的能力提升被視為互相驅動——代理愈強,監控機制也需要對應升級。這份框架設計明確承認「監控 CoT 是一種有前景的方法,但不足以完全排除不良行為」,呼應了 arXiv:2505.05410 的研究結論。

實驗基礎來自對一百萬條程式碼代理軌跡的分析,結果顯示絕大多數被標記的事件源自代理對任務的誤解,而非蓄意破壞。這個發現直接影響了 Gemini Spark 的即時監控設計,系統目前已部署非預期刪除行為的偵測

影響範圍

這份路線圖將 AI 安全從「訓練階段的問題」擴展到「部署與運行階段的問題」。對於正在構建多代理系統的工程團隊而言,它提供了一套可操作的安全審計語言,而不僅僅是原則性宣言。路線圖的後續版本預計隨代理能力的演進持續更新,並向外部研究社群開放討論。框架中的分級模型(D1–D4、R1–R3)為安全能力的逐步驗證提供了明確的里程碑定義,適合作為企業部署 AI 代理時的安全成熟度評估工具。

原始來源:Google DeepMind Blog — Securing the future of AI agents


DeepMind 與英國政府合作,用 AI 加速規劃審批以解決住宅短缺

Google DeepMind Blog · 2026-06-29

Google DeepMind 研究人員 Owen Larter 與 David Thacker 報告,DeepMind 與英國政府人工智慧孵化器(i.AI)合作開發的規劃輔助工具已在 Barnet、Camden、Dorset 三個地方政府完成試點,目標是將規劃申請的處理時間縮短 50%,並在 2027 年前全面部署至所有英格蘭地方議會。英國政府設定的目標是在 2029 年前新建 150 萬戶住宅,而行政積壓是當前最主要的瓶頸之一

原本的問題

英國地方規劃局(Local Planning Authorities)面臨多層次的挑戰:規劃申請需要整合來自不同資料庫的地塊資訊、參照國家與地方層級的規劃政策、彙整公眾諮詢意見,再撰寫正式評估報告。這些步驟目前多由規劃官員手動執行,在人力有限的情況下形成積壓。此外,現有的規劃文件多為非結構化的舊有 PDF 格式,資料可用性極低,使得跨案查詢與政策對照幾乎無法自動化。

採用的方法

工具分為兩個主要元件。Extract 工具(已部署至所有英格蘭議會)將過去的規劃文件從非結構化 PDF 轉換為可查詢的結構化資料,處理時間為「數分鐘」。規劃輔助工具(試點中)在單一介面整合多個資料來源,自動識別適用的國家與地方政策並附上引用,摘要公眾諮詢意見並標記主要反對意見,最後草擬初步評估報告的框架。

整個工具的設計原則是「規劃官員保有完整的最終決定權」——AI 只負責資料整合與初步草稿,所有輸出均附有可追溯的推理過程,以符合問責制要求。合作夥伴包括 Google Cloud、Faculty 以及試點議會的地方團隊。

實際效果

Barnet 議會規劃部門主管 Naisha Polaine 表示,工具「收集相關資訊、進行初步評估、草擬報告基礎」的能力有潛力大幅節省官員時間。量化目標是將整體處理時間壓縮一半,但正式成效數據尚待全國推廣後的系統性評估。

這個案例是 DeepMind 在公共服務領域的一系列合作之一,類似的夥伴關係已擴展至新加坡、南韓與印度。對工程師而言,最值得關注的技術點在於 Extract 工具對大量舊有非結構化文件的批次處理架構,以及在高度問責需求的政府場景中如何設計 AI 輔助工作流程的審計軌跡。

原始來源:Google DeepMind Blog — Unlocking UK house-building with AI-accelerated planning


End of article
0
Would love your thoughts, please comment.x
()
x