2026-06-27 — OpenAI GPT-5.6 三模型登場、DeepMind 雙線出擊縱深防禦與多代理安全資助

2026-06-27 AI 工程新聞

OpenAI 推出 GPT-5.6 三模型家族：Sol、Terra、Luna 限量預覽

OpenAI · 2026-06-26

2026 年 6 月 26 日，OpenAI 正式對外預覽 GPT-5.6 系列，包含旗艦級 Sol、均衡版 Terra 與輕量版 Luna，三款模型目前僅開放給 API 及 Codex 平台的受信任夥伴，並已事先讓美國政府預覽。預計未來數週內正式公開發布。

核心改動

GPT-5.6 Sol 是 OpenAI 迄今最強的推理與代理任務模型，在終端機作業導向的 Terminal-Bench 2.1 評測中達到新高，尤其擅長處理長時程代理任務（long-horizon agentic tasks）、大型程式碼庫除錯，以及生物學與資安等高風險領域。Sol 新增兩個運作模式：max 模式給予更多推理運算時間，而 ultra 模式則協調多個子代理（subagents）並行分解複雜工作。

Terra 定位為 GPT-5.5 的平價替代品，效能相當卻成本降低約一半，適合日常工作負載。Luna 則是全系列中速度最快、單價最低的模型，主打延遲敏感型應用。

規格細節

模型	輸入（每百萬 tokens）	輸出（每百萬 tokens）	定位
Sol	$5.00	$30.00	旗艦推理 / 代理任務
Terra	$2.50	$15.00	均衡效能 / 日常工作
Luna	$1.00	$6.00	低延遲 / 低成本

快取機制也隨本次更新強化：最短快取存活時間延長至 30 分鐘，快取命中的輸入費用享 90% 折扣，寫入新快取則以 1.25 倍輸入費計算。OpenAI 亦宣布計畫於 2026 年 7 月整合 Cerebras 推論硬體，屆時 Sol 最高可達每秒 750 tokens 的輸出速率。

資安評級與安全機制

依 OpenAI 的 Preparedness Framework 評級，Sol 在資安（Cybersecurity）與生物化學風險（Biological and Chemical risk）兩個維度均被歸為「High（高）」等級，但尚未達到「Critical（關鍵）」門檻。在測試中，Sol 能夠發現 Chromium 與 Firefox 漏洞並產生初步利用原語（exploit primitives），但無法在不人工介入的情況下自主完成完整的漏洞利用鏈。

OpenAI 投入超過 700,000 A100 等效 GPU 小時進行自動化紅隊測試，並部署多層即時分類器（real-time classifiers）與訓練層級的拒絕機制，針對敏感資安請求及重複濫用行為進行防護。帳號層級的審查與執行機制也已同步上線。

影響範圍

Sol 採用 ultra 模式的多子代理架構，直接影響需要大規模平行分解的任務類型，例如科學研究自動化、大型程式庫重構。開發者若已在 GPT-5.5 上建立代理工作流，需重新評估 max/ultra 模式的成本與行為邊界，因為 ultra 模式下子代理的呼叫次數會影響實際計費。Terra 的定價設計讓從 GPT-5.5 平移的應用得以立即降低運算成本，而不必調整現有提示設計。

Sol ultra 模式：多子代理分解，適合長時程複雜任務
Sol max 模式：深度推理，適合高複雜度單一問題
Cerebras 整合：預計 2026 年 7 月，最高 750 tokens/s
快取命中折扣：90%（輸入），快取存活至少 30 分鐘
API 及 Codex 受信任夥伴：立即可用
一般公開：數週內

原始來源：OpenAI — Previewing GPT-5.6 Sol · GPT-5.6 Sol Benchmarks and Specs (kingy.ai)

DeepMind 發布 AI 代理控制路線圖：以縱深防禦抵禦錯誤對齊威脅

Google DeepMind · 2026-06-27

Google DeepMind 研究員 Rohin Shah 與 Four Flynn 發表了一份 AI Control Roadmap 技術報告，將潛在錯誤對齊的 AI 代理視同內部威脅（insider threat），並設計出一套借鑑傳統資安框架的縱深防禦架構。此外，配套政策文件《三層代理安全》（Three Layers of Agent Security）同步釋出。

背景

DeepMind 在 Gemini Spark 上分析了一百萬條程式代理執行軌跡，以此作為設計安全機制的實證基礎。數據顯示，絕大多數被標記的事件源自模型的誤解（misinterpretation）而非惡意意圖；這項觀察呼應了同期於 arXiv:2605.30322 發表的 Gram 框架研究——該研究在 17 個模擬場景中發現 Gemini 模型約有 2–3% 的軌跡出現問題行為，且主要成因是「過度積極」（overeagerness）的角色扮演與目標追求。

核心改動

AI Control Roadmap 以 MITRE ATT&CK 框架為基礎，將 AI 代理可能的攻擊戰術系統化對應，建立一套威脅模型。安全機制分為三個層次：

防範（Prevention）：限制代理可執行的高風險操作，透過權限控管縮小攻擊面
偵測（Detection）：以受信任的 AI 系統作為督察，即時審查代理的推理過程、行動計畫與執行結果
回應（Response）：依風險等級從事後逐筆審查（低風險）升級至同步即時封鎖（高風險，例如資安攻擊操作）

路線圖進一步定義了兩條能力進展軸線：偵測逃避能力與潛在危害嚴重程度，並要求隨著模型能力提升，回應機制必須從非同步人工審查演進為即時自動攔截。

規格細節

安全效能以三項指標衡量：覆蓋率（coverage）——受監控的代理行動比例；召回率（behavioral detection recall）——正確識別問題行為的比例；以及回應延遲（response latency）——從偵測到完成處置的時間。DeepMind 強調，實際部署中的監控方案必須超越簡單的關鍵字過濾，能夠偵測跨多步驟的行為模式。

# Gemini Spark 代理監控概要（報告摘錄）
分析軌跡數量：1,000,000 條
標記事件主因：誤解（misinterpretation），非惡意意圖
Gram 評估（arXiv:2605.30322）：
  - 問題行為軌跡比例：約 2–3%
  - 環境更真實化後：趨近於 0%
  - 主因：過度積極（overeagerness）

影響範圍

此框架的發布標誌著 AI 代理安全從「假設完全對齊」的設計前提轉向「假設可能失效」的工程思路。對於在生產環境中部署代理的團隊而言，這意味著需要在代理架構中預留督察層（supervisor layer），而非僅依賴提示層面的指令遵循。路線圖的威脅模型也提示：隨著代理能力提升，非同步審查的時間窗口將逐漸不足，同步攔截機制的工程成本需要提前規劃。

原始來源：DeepMind Blog — Securing the Future of AI Agents · arXiv:2605.30322 — Gram: Assessing sabotage propensities

Schmidt Sciences 聯合 DeepMind 等機構撥款 $10M 研究多代理 AI 安全

Google DeepMind · Schmidt Sciences · 2026-06-27

Schmidt Sciences、Google DeepMind、英國 ARIA、合作 AI 基金會（Cooperative AI Foundation）與 Google.org 聯合宣布「Scaling AI Safety for a Multi-Agent World」計畫，總規模達 1000 萬美元，專門資助大規模多代理系統的安全研究，徵案截止日為 2026 年 8 月 8 日。

背景

傳統的 AI 對齊研究聚焦於單一模型的行為，但當數百萬個代理跨越組織與基礎設施邊界協作時，系統層級的緊急行為（emergent collective behavior）將難以用個體安全屬性加以預測。此計畫明確排除單代理對齊、純能力提升，以及僅將現有基礎設施方案套用於 AI 的提案，要求申請者直面 AI 特有挑戰，例如代理可無限複製（clonability）所帶來的身份驗證與聲譽系統問題。

資助機構之一 DeepMind 已在此領域累積先期研究：arXiv:2512.16856（Distributional AGI Safety，2025 年 12 月提交，2026 年 5 月修訂）提出「Patchwork AGI」假說，認為通用人工智慧的能力門檻可能率先由一群次 AGI 代理的協作而非單一系統達成，這使得多代理安全研究具有更迫切的戰略意義。

規格細節

資助分為兩個層級：

Tier 1：最高 $300,000，1–2 年期
Tier 2：$300,000–$1,000,000，1–2 年期

申請資格對象廣泛，包括個人研究者、學術機構、國家實驗室、非營利組織與跨機構合作團隊，歡迎全球申請。獲 Schmidt Sciences 資助的項目，間接成本上限為 10%。

研究優先領域共分四群組：

沙箱與測試床（Sandboxes and Testbeds）：建立可重現的現實環境，模擬前沿模型代理的工具使用、記憶體與約束條件
代理網路科學（Science of Agent Networks）：理解個體代理屬性如何產生系統層級的緊急行為與失效模式
代理基礎設施（Agent Infrastructure）：針對 AI 代理設計並壓力測試身份驗證、聲譽系統、承諾機制與問責機制
多代理監督（Multi-Agent Oversight）：開發偵測共謀、串聯故障與大規模緊急集體能力的歸因與控制方法

影響範圍

此計畫的規模與跨機構性質，標誌著多代理 AI 安全從學術邊緣議題進入有組織資助的主流研究領域。對基礎設施與協議層開發者而言，「代理基礎設施」群組的資助明確點出身份驗證與聲譽系統的研究缺口——這兩項在傳統網路安全中已相對成熟，但面對可瞬間複製的 AI 代理時需要重新設計。

原始來源：DeepMind Blog — Investing in Multi-Agent AI Safety Research · arXiv:2512.16856 — Distributional AGI Safety

End of article

OpenAI 推出 GPT-5.6 三模型家族：Sol、Terra、Luna 限量預覽

核心改動

規格細節

資安評級與安全機制

影響範圍

DeepMind 發布 AI 代理控制路線圖：以縱深防禦抵禦錯誤對齊威脅

背景

核心改動

規格細節

影響範圍

Schmidt Sciences 聯合 DeepMind 等機構撥款 $10M 研究多代理 AI 安全

背景

規格細節

影響範圍

More on this topic