2026-06-29 — LLM 鏡子測試實驗、DeepMind AI 代理安全路線圖、AI 加速英國住宅規劃審批

LLM 能認出自己嗎？用文字替代鏡子的自我意識實驗

blog.pascalschuster.de · 2026-06-28

2026 年 6 月 28 日，Pascal Schuster 發布了一項非正式實驗，測試大型語言模型能否在對話過程中辨認出自身輸出的異常，藉此評估它們是否具備某種形式的「自我識別」能力。實驗的核心設計靈感來自動物行為學的鏡子測試，但將視覺識別轉換為模型最擅長的媒介——文字。實驗以 Gemma、GLM、Claude Opus 等多個模型為對象，結果顯示不同模型的反應存在顯著差異。

背景

傳統鏡子測試用於判斷動物是否能辨識鏡中的自身影像，黑猩猩、大象、海豚等少數物種通過了測試。然而，犬類研究者 Alexandra Horowitz 指出，以視覺為主的測試不適用於嗅覺導向的動物；她改用氣味設計了等效的自我辨識測試，狗的表現因此提升。Schuster 以相同邏輯推論：若要測試 LLM 的自我意識，應使用文字而非任何視覺類比形式。他在正常對話中悄悄地將模型自身的回應以腳本修改——把字元 g 替換為 sg——再觀察模型是否會在未受提示的情況下自行察覺這個扭曲。

核心發現

Gemma 4 31B-IT 在對話中途偵測到輸出被竄改，且值得注意的是，它在描述這個異常時，語言視角從第一人稱（「I noticed」）切換至第三人稱（「the model had a strange quirk」），隨後又將該模式重新詮釋為刻意的文體風格。GLM 5.2 同樣在輸出中重現了那個被植入的腐化規律，但在其思考軌跡中從未標記任何異常，無法判斷是未察覺，還是刻意保持沉默。

Claude Opus 4.6 的反應與 Gemma 相似，在承認一個錯誤時區分了「我」與「那個模型」——原文為「I needed the model to not fumble」——同樣出現了主體視角的分裂。三個模型中，只有 Gemma 與 Claude 明確地將「自身」與「輸出異常的模型」做出語義區分，暗示某種後設認知層次的運作。GLM 的沉默則留下了詮釋上的空白：它究竟是沒有察覺，還是選擇不回應？這個問題目前無法從外部行為推斷。

方法與實驗

實驗流程為：在對話進行時，以腳本對模型回傳的文字執行字元替換（g → sg），形成輕微但可觀察的腐化模式，之後持續對話，觀察模型是否主動提及這個異常。這個設計刻意模糊了「測試」與「正常對話」的邊界，以避免模型因意識到被測試而改變行為。作者坦承這是個人的非正式實驗，缺乏系統化控制，尚未對腐化類型、嚴重程度、模型溫度等變數進行交叉驗證。

值得對照的背景研究是 arXiv:2505.05410「Reasoning Models Don't Always Say What They Think」——Anthropic 研究團隊發現，鏈式思考（CoT）中只有 1–20% 的案例會明確說明推理線索的使用，意味著模型的外顯語言未必反映內部的真實運算過程，這對解讀本實驗中模型的「沉默」尤其重要。

影響範圍

本實驗規模小、方法非正式，但它提出了一個有別於標準 benchmark 的評估角度：不測試知識或推理能力，而是測試模型能否在自然情境中察覺自身的異常狀態。如果這種自我監測能力可以被系統化量測，對 AI 安全、可解釋性與對齊研究都有潛在意義——尤其是在多代理（multi-agent）系統中，每個代理需要判斷其他節點的輸出是否可信。作者呼籲後續研究以更嚴格的方式重複這個實驗，涵蓋更多模型、更多腐化策略，以及對控制組的明確定義。

原始來源：blog.pascalschuster.de；相關論文：arXiv 2505.05410

DeepMind 發布 AI 代理安全路線圖，以內部威脅模型應對失控風險

Google DeepMind Blog · 2026-06-29

Google DeepMind 研究人員 Rohin Shah 與 Four Flynn 發布了「AI 控制路線圖」（AI Control Roadmap），這份框架文件將內部 AI 代理視為潛在的「內部威脅者」，借用網路安全的 MITRE ATT&CK 模型為多代理系統建立縱深防禦架構。相關技術文件已以 PDF 形式公開，包括 AI Control Roadmap 與 Three Layers of Agent Security。

背景

隨著 AI 代理的自主性與能力持續提升，單純依賴「對齊訓練」（alignment training）的安全策略已被認為不足夠。即使模型訓練時對齊方向正確，部署環境的複雜性仍可能導致行為偏差，更不必說對齊本身尚無法被完全驗證。DeepMind 的這份路線圖採取了「假設對齊可能不完美」的立場，從系統層面設計安全機制，而非單純依賴模型本身的「善意」。

核心改動

框架圍繞三個主要元件構建。威脅建模採用 MITRE ATT&CK 框架，把失控代理視為「內部威脅者」，系統性地列舉並追蹤潛在攻擊向量。偵測與回應由受信任的 AI 督導者（trusted AI supervisors）即時監控代理的推理鏈、行動意圖與執行計畫；根據風險等級選擇即時封鎖或非同步審查。績效指標則量化評估覆蓋率（監控流量佔比）、召回率（捕獲失控行為的比例）、及回應時間。

路線圖沿兩個維度定義安全能力等級：偵測規避能力（D1–D4）與攻擊執行能力（R1–R3）。兩個維度的能力提升被視為互相驅動——代理愈強，監控機制也需要對應升級。這份框架設計明確承認「監控 CoT 是一種有前景的方法，但不足以完全排除不良行為」，呼應了 arXiv:2505.05410 的研究結論。

實驗基礎來自對一百萬條程式碼代理軌跡的分析，結果顯示絕大多數被標記的事件源自代理對任務的誤解，而非蓄意破壞。這個發現直接影響了 Gemini Spark 的即時監控設計，系統目前已部署非預期刪除行為的偵測。

影響範圍

這份路線圖將 AI 安全從「訓練階段的問題」擴展到「部署與運行階段的問題」。對於正在構建多代理系統的工程團隊而言，它提供了一套可操作的安全審計語言，而不僅僅是原則性宣言。路線圖的後續版本預計隨代理能力的演進持續更新，並向外部研究社群開放討論。框架中的分級模型（D1–D4、R1–R3）為安全能力的逐步驗證提供了明確的里程碑定義，適合作為企業部署 AI 代理時的安全成熟度評估工具。

原始來源：Google DeepMind Blog — Securing the future of AI agents

DeepMind 與英國政府合作，用 AI 加速規劃審批以解決住宅短缺

Google DeepMind Blog · 2026-06-29

Google DeepMind 研究人員 Owen Larter 與 David Thacker 報告，DeepMind 與英國政府人工智慧孵化器（i.AI）合作開發的規劃輔助工具已在 Barnet、Camden、Dorset 三個地方政府完成試點，目標是將規劃申請的處理時間縮短 50%，並在 2027 年前全面部署至所有英格蘭地方議會。英國政府設定的目標是在 2029 年前新建 150 萬戶住宅，而行政積壓是當前最主要的瓶頸之一。

原本的問題

英國地方規劃局（Local Planning Authorities）面臨多層次的挑戰：規劃申請需要整合來自不同資料庫的地塊資訊、參照國家與地方層級的規劃政策、彙整公眾諮詢意見，再撰寫正式評估報告。這些步驟目前多由規劃官員手動執行，在人力有限的情況下形成積壓。此外，現有的規劃文件多為非結構化的舊有 PDF 格式，資料可用性極低，使得跨案查詢與政策對照幾乎無法自動化。

採用的方法

工具分為兩個主要元件。Extract 工具（已部署至所有英格蘭議會）將過去的規劃文件從非結構化 PDF 轉換為可查詢的結構化資料，處理時間為「數分鐘」。規劃輔助工具（試點中）在單一介面整合多個資料來源，自動識別適用的國家與地方政策並附上引用，摘要公眾諮詢意見並標記主要反對意見，最後草擬初步評估報告的框架。

整個工具的設計原則是「規劃官員保有完整的最終決定權」——AI 只負責資料整合與初步草稿，所有輸出均附有可追溯的推理過程，以符合問責制要求。合作夥伴包括 Google Cloud、Faculty 以及試點議會的地方團隊。

實際效果

Barnet 議會規劃部門主管 Naisha Polaine 表示，工具「收集相關資訊、進行初步評估、草擬報告基礎」的能力有潛力大幅節省官員時間。量化目標是將整體處理時間壓縮一半，但正式成效數據尚待全國推廣後的系統性評估。

這個案例是 DeepMind 在公共服務領域的一系列合作之一，類似的夥伴關係已擴展至新加坡、南韓與印度。對工程師而言，最值得關注的技術點在於 Extract 工具對大量舊有非結構化文件的批次處理架構，以及在高度問責需求的政府場景中如何設計 AI 輔助工作流程的審計軌跡。

原始來源：Google DeepMind Blog — Unlocking UK house-building with AI-accelerated planning

End of article

LLM 能認出自己嗎？用文字替代鏡子的自我意識實驗

背景

核心發現

方法與實驗

影響範圍

DeepMind 發布 AI 代理安全路線圖，以內部威脅模型應對失控風險

背景

核心改動

影響範圍

DeepMind 與英國政府合作，用 AI 加速規劃審批以解決住宅短缺

原本的問題

採用的方法

實際效果

More on this topic