OpenAI GPT-5.6 系列上線,美國政府逐案審核用戶存取資格
Yahoo News / Washington Post · 2026-06-26
OpenAI 於 2026 年 6 月下旬推出 GPT-5.6 系列,包含旗艦版 Sol、日常用途版 Terra 及入門版 Luna,其中 Sol 被描述為 OpenAI 迄今最強的模型。與過往公開上線不同,初期存取須通過美國政府審核,目前僅開放予約 20 個政府核可的合作夥伴。
背景
川普政府以 Sol 在程式撰寫、生物學與網路安全領域的先進能力為由,要求 OpenAI 採取分階段發布。依據川普簽署的行政命令,AI 公司須在廣泛發布前將前沿模型提交政府進行能力評估。Sol 在 Terminal-Bench 2.1 基準測試中超越 Anthropic 的 Mythos,為政府決策提供了直接依據。
同期,美國商務部也以出口管制為由,要求 Anthropic 暫停旗下 Fable 5 與 Mythos 5 模型的部分地區存取,顯示政府事前審查正逐漸成為前沿模型發布的常態機制,而非個案處置。
存取流程與影響範圍
目前的存取流程為:申請方資料須提交聯邦當局,通過審核後方可取得試用資格,後續擴大開放時間表由 OpenAI 與政府協商決定。OpenAI 執行長 Sam Altman 向員工說明,政府將「逐客戶審核」存取申請。涉及審核的機構包含白宮國家網路主任辦公室(ONCD)與科技政策辦公室(OSTP)。
- GPT-5.6 Sol:旗艦模型,強調程式、生物、網路安全能力
- GPT-5.6 Terra:定位日常工作場景
- GPT-5.6 Luna:定位成本敏感用途
OpenAI 在聲明中表示,政府審核「不應成為長期預設機制」,因為此做法使開發者、企業與全球合作夥伴無法及時取得所需工具。OpenAI 預計在數週內推動更廣泛的開放,同時與政府協商建立未來發布的框架。Sol 搭載 OpenAI 迄今最嚴格的安全護欄,具體技術規格尚待正式技術報告公布。
原始來源:Yahoo News — OpenAI Rolls Out Powerful GPT-5.6 Models;Washington Post — OpenAI says the U.S. government will vet users
DiffusionGemma:Google DeepMind 以擴散架構實現每秒千 token 推理
Google Blog · 2026-06-10
Google DeepMind 於 2026 年 6 月 10 日發布 DiffusionGemma,這是一款採用文字擴散(text diffusion)架構的 26B Mixture-of-Experts 模型,推理時僅啟用 3.8B 參數。在 NVIDIA H100 上可達 1,000+ tokens/秒,比標準自回歸方法快最多 4 倍,模型依 Apache 2.0 授權開源。
背景
傳統大型語言模型採自回歸(autoregressive)方式,每次前向傳遞僅生成一個 token,推理延遲隨序列長度線性增加。Google DeepMind 的 Gemini Diffusion 研究線探索以擴散過程取代自回歸解碼:模型從噪聲出發,透過迭代精煉還原出完整文字,允許整個 token 區塊同步生成。DiffusionGemma 將此研究成果整合進 Gemma 4 家族架構並開源,是該技術路線首個公開可用的模型。
核心改動
DiffusionGemma 在 Gemma 4 主幹之上引入一個新型擴散頭(diffusion head),負責並行生成 256 個 token 的輸出區塊,取代逐 token 的自回歸解碼。與自回歸模型的因果注意力不同,擴散頭使用雙向注意力(bi-directional attention),使生成中的每個位置都能參考同一區塊內其他位置的資訊,進而支援迭代自我修正。MoE 架構使模型總參數達 26B,但推理時只有 3.8B 參數處於活躍狀態,量化後僅需 18GB VRAM 即可部署。
規格細節
- 架構:26B MoE,3.8B 活躍參數,基於 Gemma 4 家族
- 推理速度:H100 上 1,000+ tokens/s;RTX 5090 上 700+ tokens/s
- 並行生成:每次前向傳遞產生 256 tokens
- 記憶體需求:量化後 18GB VRAM
- 授權:Apache 2.0,權重發布於 Hugging Face
- 支援框架:Hugging Face Transformers、vLLM、MLX、Unsloth、NVIDIA NeMo(llama.cpp 即將支援)
- 雲端部署:Google Cloud Gemini Enterprise Agent Platform Model Garden、NVIDIA NIM
DeepMind 明確承認,DiffusionGemma 的輸出品質低於同家族的自回歸版 Gemma 4,速度與品質間的取捨目前仍存在。對於需要高吞吐量的推理場景(批次摘要、即時代碼補全、大量文件處理),DiffusionGemma 提供了一條在現有 GPU 上大幅提升吞吐的路徑,而無需等待更大規格的硬體。
原始來源:Google Blog — DiffusionGemma: 4x faster text generation;DeepMind — Gemini Diffusion model page
Anthropic 推出 Claude Tag:Slack 頻道內的多人共享 AI 代理
Anthropic · 2026-06-23
Anthropic 於 2026 年 6 月 23 日為 Claude Enterprise 與 Team 用戶推出 Claude Tag(公開測試版),讓團隊在 Slack 頻道中透過 @Claude 標記來委派工作。與個人 AI 助理不同,Claude Tag 以頻道為單位共享一個 Claude 實例,所有成員可見對話與進度,並由 Opus 4.8 模型驅動。
核心改動
Claude Tag 的設計核心是代理身份(agent identity)模型:Claude 不再以特定使用者身份執行,而是作為獨立服務帳號,持有管理員配置的憑證與工具存取權。依據 Anthropic 的 Agent Identity Access Model(2026-06-24),權限範圍以頻道為粒度設定,工作區層級定義基線,各頻道可繼承或覆寫。工作執行於 Anthropic 託管的臨時沙箱中,不在用戶本地電腦或內部網路內執行;工作階段在對話結束、閒置後自動銷毀。
私訊(DM)為例外情況:DM 以個人 claude.ai 帳號執行,不佔用組織的用量餘額,計費規則與一般 claude.ai 帳號相同。對外連線限制在管理員核可的主機範圍內,非核可主機的出站流量在網路邊界被封鎖。
規格細節
- 底層模型:Opus 4.8
- 整合方式:Slack 工作區配對,支援頻道、討論串與私訊
- 遷移:取代現有 Claude in Slack 應用程式,提供 30 天選擇加入視窗
- 計費:頻道與討論串工作從組織的 funded usage balance 扣除,可設定每計費週期上限
- 可用性:Claude Enterprise 與 Team 用戶,提供啟動點數
管理員可為不同用途建立獨立的 Claude 身份(例如銷售頻道 Claude 無法存取工程資料),並透過審計紀錄追蹤每個例程、記憶寫入與網路呼叫。支援即時憑證授予(just-in-time credential grants)以處理高敏感性操作。Claude Tag 的環境感知(ambient)模式讓 Claude 可主動跨頻道監控並回報相關資訊,而不只是被動回應標記,適用場景包含除錯、文件生成、專案狀態彙整與排程觸發工作。
原始來源:Anthropic — Introducing Claude Tag;Anthropic — Agent Identity Access Model