FrontierCode:以「能否合併進 PR」為標準的 AI 程式碼品質基準
Cognition AI · 2026-06-09
Cognition 發布 FrontierCode 基準,不再只問「程式碼能否執行通過測試」,而是問「maintainer 是否願意 merge 這個 PR」。150 道題目由 20 位以上頂尖開源維護者各投入逾 40 小時設計,涵蓋行為正確性、迴歸安全、機械整潔度、測試品質、修改範圍與程式碼風格六個面向。
評估方法
每道題設有 blocker 與 non-blocker 標準:blocker 代表硬性合併要求(如正確性),任何一個 blocker 未通過即得零分。Non-blocker 為品質訊號(如風格一致性)。Cognition 開發了三項新評分技術:
- Reverse-Classical:Agent 撰寫的測試必須在原始有缺陷的 codebase 上失敗,驗證 agent 真正理解問題而非猜測
- Code Scope 自動化檢查:強制差異只碰必要檔案,限制 diff 大小與語意局部性
- Adaptive Classical Grading:以 LLM 工具(mutagent)微調測試環境,容納合理的不同實作方式
模型得分對比
| 模型 | Diamond(50 題) | Main(100 題) | Extended(150 題) |
|---|---|---|---|
| Claude Opus 4.8 | 13.4% | 34.3% | 51.8% |
| GPT-5.5 | 6.3% | — | — |
| Gemini 3.1 Pro | 4.7% | — | — |
| Kimi K2.6(最佳開源) | 3.8% | — | — |
Diamond 子集尚未飽和,最高分為 13.4%,顯示現有模型在生產品質程式撰寫上仍有相當差距。FrontierCode 的 prompt 設計刻意簡短(約為 SWE-Bench Pro 的三分之一),要求模型推斷意圖而非依賴詳細指示;誤報率比 SWE-Bench Pro 低 81%。
MacArena:macOS 電腦使用 Agent 基準
MacArena(arXiv 2606.06560,ICML 2026 Workshop)提供 421 道 macOS 原生任務,涵蓋 50 款應用程式,以 Apple Silicon 原生虛擬化運行。研究顯示,在 Linux 基準表現強的模型移到 macOS 後,排名大幅改變,原生 macOS 子集的最高分模型比 Linux 版本落後逾 26%。這表明現有 agent 缺乏真正的跨平台 GUI 理解能力,主要依賴對 Linux 任務分佈的熟悉度。
Apple WWDC26:Core AI Framework 與 Gemini 合作
Apple 在 WWDC26 發布 Core AI Framework,其基礎模型由 Apple 與 Google 合作開發,採用 Gemini 家族背後的技術,但已針對 Apple 的隱私架構重新適配。Private Cloud Compute 基礎設施負責伺服器端推論,裝置端與雲端的切分沿用 Apple Intelligence 原本設計。新系統中心為一個「系統協調器」,可跨應用程式統整上下文,驅動圖片生成、視覺問答與語音合成等能力。
原始來源:Cognition — FrontierCode、arXiv 2606.06560 — MacArena、MacRumors — Apple AI Architecture at WWDC26