🚨 今日科技重點
- OpenAI 發佈 ChatGPT Images 2.0 — 首次具備 Thinking 模式的圖像生成模型 — 最高支援 2K 解析度、3:1~1:3 任意長寬比、一次生成最多 8 張連貫圖;Thinking 模式可在生成前執行網路搜尋、自我審查輸出,並跨多圖保持角色與物件一致性,非拉丁語系文字渲染大幅改善。
💡 圖像模型首次真正整合推理鏈;API 端的 2K 輸出 + 8-batch 意味可以直接取代部分人工排版步驟。
- Google 發佈 Deep Research & Deep Research Max — Gemini 3.1 Pro 驅動的自主研究 Agent — 兩個分層 agent:標準版針對低延遲互動場景,Max 版用延伸 test-time compute 迭代搜尋與推理,適合背景排程場景。兩者均支援 MCP server 接入自訂資料、原生生成 HTML 圖表、接受 PDF/CSV/圖片/音訊/影片多模態輸入。
💡 把 Deep Research Max 當成一個「可排程的資深研究員 API」:夜間 cron job 呼叫 → 早上拿到附完整引用的報告。
- Meta 推行 Model Capability Initiative(MCI)— 錄製員工滑鼠、鍵盤、截圖供 AI 訓練 — 在美國員工的工作電腦安裝 MCI 軟體,記錄特定 app 與網站上的滑鼠移動、點擊、按鍵輸入與定時截圖,目的是改善 AI agent 在電腦操作介面上的弱點。Meta 表示資料不用於績效考核。
💡 若你在企業部署 AI agent 產品,需提前準備「訓練資料來源與員工同意」的政策文件,客戶和法務遲早會問。
🧠 AI / LLM 動態
- Kimi K2.6 — Moonshot AI 開源 1T 參數 MoE 模型,SWE-Bench Pro 58.6 超越 GPT-5.4 — 架構:1 兆總參數、每 token 激活 32B(384 experts)、內建 MoonViT 400M 視覺編碼器、256K context。旗艦能力:單次任務最多派出 300 個子 agent、4,000+ 工具呼叫、持續執行 12+ 小時。SWE-Bench Pro 58.6(GPT-5.4 57.7)、HLE-Full with tools 54.0(業界第一)。
💡 這是首個在 SWE-Bench Pro 上超越 GPT-5.4 的開源模型,Hugging Face 權重以 Modified MIT 授權釋出;今天加入測試矩陣。
- Anthropic 自動化對齊研究員(AAR)— Claude Opus 4.6 在 5 天內以 0.97 PGR 超越人類基線 — 9 個 Claude Opus 4.6 實例各跑獨立沙盒,人類研究員 7 天達 PGR 0.23;AARs:5 天、800 累積計算小時、花費約 $18,000,達 PGR 0.97。遷移泛化:數學 0.94、程式碼 0.47(差異顯著)。每 AAR-hour 約 $22。
💡 部分結構化研究任務可以直接量化 compute vs. alignment progress 的交換率;但「自動化研究員能否延伸到更模糊的安全問題」依然是核心未解問題。
- GoModel — Go 語言開源 AI Gateway,雙層快取 + Prometheus 支援 — 單一 OpenAI 相容端點,統一路由 10+ 供應商;精確比對快取 + 向量語意快取(支援 Qdrant、pgvector、Pinecone)、Prometheus metrics、管理 UI;Go 1.26.2+ 編寫,sub-millisecond cache lookup 設計目標。
💡 相較於 LiteLLM(Python),GoModel 在高並發場景下資源佔用更低;單一 binary + 雙層快取架構值得評估。
🛡️ 資安快訊
- Kroll 2026 全球 AI 資安報告 — 76% 企業遭遇過 AI 相關資安事件 — 76% 企業過去兩年曾發生 AI 應用或模型相關資安事件;27% 損失超過 100 萬美元;48% 組織對 AI 工具導入幾乎沒有治理框架;AI 安全測試僅佔 AI 預算的平均 13%。
💡 cyber maturity 與 AI 事件率強相關——先從建立工具白名單 + 資料分類政策開始,效果遠大於買新一代安全工具。
- CrabTrap — Brex 開源 LLM-as-a-judge HTTP Proxy,攔截並審查 AI Agent 請求 — 插在 agent 與目標 API 之間的 HTTP proxy,靜態規則 + LLM 混合決策,回傳 allow/block + 決策原因;設定時間約 30 秒,MIT 授權。
💡 與 GoModel 組合可形成完整的 AI 流量管控層,適合保護「會對外呼叫 API 的內部 agent」。
🎯 工程師建議
- ChatGPT Images 2.0 API 試用:若產品有圖像生成需求,今天就測試 2K 解析度 batch API
- Deep Research Max 排程 PoC:建立 cron job 每日呼叫 API 彙整競品動態或法規更新
- Kimi K2.6 eval:Hugging Face 已有開源權重(Modified MIT),30B activated 可在 4x A100 跑
- AI 治理補課:Kroll 報告顯示 48% 企業沒有 AI 採購治理——先做工具盤點,再定義資料分類政策
- agent 安全閘道:CrabTrap + GoModel 組合可在一個 sprint 內建立基本的 AI 流量審計與管控層
🎪 社群趣事 & 新知
- 「OpenAI 的圖像模型終於會想了,但會不會越想越歪?」 — HN 討論最熱問題:Thinking 模式的 image model 三個月內必有 jailbreak showcase,社群已在押注。
- Kimi K2.6 的 300-agent swarm 震驚 AI Twitter — 最佳留言:「我現在得解釋給 PM 聽為什麼我們需要支援 '300 個 AI 同時工作' 的架構。」
- Meta 鍵盤監控 meme 爆發 — Slashdot top 留言:「終於,一個公司能夠訓練 AI 學會『Ctrl+Z 三次後無奈地關視窗』這種高情商操作。」
- Anthropic AAR $22/小時研究員 — 社群戲稱:「AI 對齊研究員的時薪終於超過一份 Chipotle 外送費了。」研究者反應:「設計 eval 的人還是需要博士學位。」
End of article