2026-06-09 — FrontierCode AI 程式碼品質基準、MacArena macOS Agent 評估、Apple Core AI 架構

FrontierCode：以「能否合併進 PR」為標準的 AI 程式碼品質基準

Cognition AI · 2026-06-09

Cognition 發布 FrontierCode 基準，不再只問「程式碼能否執行通過測試」，而是問「maintainer 是否願意 merge 這個 PR」。150 道題目由 20 位以上頂尖開源維護者各投入逾 40 小時設計，涵蓋行為正確性、迴歸安全、機械整潔度、測試品質、修改範圍與程式碼風格六個面向。

評估方法

每道題設有 blocker 與 non-blocker 標準：blocker 代表硬性合併要求（如正確性），任何一個 blocker 未通過即得零分。Non-blocker 為品質訊號（如風格一致性）。Cognition 開發了三項新評分技術：

Reverse-Classical：Agent 撰寫的測試必須在原始有缺陷的 codebase 上失敗，驗證 agent 真正理解問題而非猜測
Code Scope 自動化檢查：強制差異只碰必要檔案，限制 diff 大小與語意局部性
Adaptive Classical Grading：以 LLM 工具（mutagent）微調測試環境，容納合理的不同實作方式

模型得分對比

模型	Diamond（50 題）	Main（100 題）	Extended（150 題）
Claude Opus 4.8	13.4%	34.3%	51.8%
GPT-5.5	6.3%	—	—
Gemini 3.1 Pro	4.7%	—	—
Kimi K2.6（最佳開源）	3.8%	—	—

Diamond 子集尚未飽和，最高分為 13.4%，顯示現有模型在生產品質程式撰寫上仍有相當差距。FrontierCode 的 prompt 設計刻意簡短（約為 SWE-Bench Pro 的三分之一），要求模型推斷意圖而非依賴詳細指示；誤報率比 SWE-Bench Pro 低 81%。

MacArena：macOS 電腦使用 Agent 基準

MacArena（arXiv 2606.06560，ICML 2026 Workshop）提供 421 道 macOS 原生任務，涵蓋 50 款應用程式，以 Apple Silicon 原生虛擬化運行。研究顯示，在 Linux 基準表現強的模型移到 macOS 後，排名大幅改變，原生 macOS 子集的最高分模型比 Linux 版本落後逾 26%。這表明現有 agent 缺乏真正的跨平台 GUI 理解能力，主要依賴對 Linux 任務分佈的熟悉度。

Apple WWDC26：Core AI Framework 與 Gemini 合作

Apple 在 WWDC26 發布 Core AI Framework，其基礎模型由 Apple 與 Google 合作開發，採用 Gemini 家族背後的技術，但已針對 Apple 的隱私架構重新適配。Private Cloud Compute 基礎設施負責伺服器端推論，裝置端與雲端的切分沿用 Apple Intelligence 原本設計。新系統中心為一個「系統協調器」，可跨應用程式統整上下文，驅動圖片生成、視覺問答與語音合成等能力。

原始來源：Cognition — FrontierCode、arXiv 2606.06560 — MacArena、MacRumors — Apple AI Architecture at WWDC26

End of article