AI 前沿 2026 年 5 月 11 日

2026-05-11 — AlphaEvolve 實際影響、AI Co-Mathematician arXiv:2605.06651、Gemini 多模態 RAG

primary=https://deepmind.google/blog/alphaevolve-impact/ primary=https://arxiv.org/abs/2605.06651 primary=https://blog.google/innovation-and-ai/technology/developers-tools/expanded-gemini-api-file-search-multimodal-rag/

AlphaEvolve 實際影響報告:Gemini 驅動的演算法搜尋引擎在科學與基礎設施的量測成果

Google DeepMind Blog · 2026-05-08

Google DeepMind 於 2026 年 5 月發布 AlphaEvolve 的實際影響報告,詳述這套 Gemini 驅動的自主演算法設計代理在數學、量子運算、基因體學、材料科學與 Google 基礎設施各領域的量測成果。AlphaEvolve 原於 2025 年 5 月發表,此次報告是其部署後的系統性評量。

系統架構

AlphaEvolve 是一個自主程式碼生成與最佳化系統,以 Gemini 為推理核心,通過以下工作流程運作:產生候選演算法(以程式碼形式)→ 對照基準自動測試 → 以進化搜尋迭代精化。無需大量人工介入——快取最佳化問題的解決從傳統需要數月縮短至 2 天。

科學領域成果

  • 基因體學:DeepConsensus DNA 定序變異偵測錯誤率降低 30%。
  • 電力最佳化:AC Optimal Power Flow 問題可行解比例從 14% 提升至 88%。
  • 災害預測:20 種自然災害類別的預測精度平均提升 5%。
  • 量子運算:Google Willow 處理器上分子模擬量子電路的錯誤率降低 10 倍。
  • 數學:改進 Traveling Salesman Problem 的下界,並推進 Ramsey Number 相關記錄。

Google 基礎設施影響

AlphaEvolve 已整合進 Google 內部基礎設施最佳化管線,具體量測結果如下:

系統指標改善
TPU 電路設計最佳化結果整合進次世代 silicon
Google Spannerwrite amplification 降低 20%
編譯器儲存 footprint 減少 9%

商業應用

外部商業案例包括:Klarna(transformer 模型訓練速度加倍)、FM Logistic(路由效率提升 10.4%)、Schrödinger(分子力場訓練加速 4 倍)、半導體廠商(微影模擬加速數倍)。這些成果顯示 AlphaEvolve 的核心能力——在有明確評估函數的問題上搜尋高效程式解——在工程最佳化場景具有廣泛適用性。

原始來源:AlphaEvolve: How our Gemini-powered coding agent is scaling impact across fields (DeepMind)


AI Co-Mathematician:FrontierMath Tier 4 得分 48%,數學研究工作台的架構設計

arXiv:2605.06651 · 2026-05-07

2026 年 5 月 7 日,18 位研究者聯合在 arXiv 發表 AI Co-Mathematician(arXiv:2605.06651),描述一套專為開放性數學研究設計的互動式代理工作台,在困難數學推理基準 FrontierMath Tier 4 上達到 48% 得分,並輔助研究者解決了真實開放問題。

系統架構

AI Co-Mathematician 是一個非同步、有狀態的工作台,而非單次問答系統。它同時維護多個並行任務,支援跨 session 的上下文延續,並具備以下設計要件:

  • 失敗假說追蹤:記錄嘗試過但失效的方法路徑,避免重複探索已知死路。
  • 意圖精化:透過反覆澄清使用者目標,處理開放性問題中不完整的初始描述。
  • 不確定性管理:在資訊不足時明確表達不確定性,而非生成虛假陳述。
  • 原生數學輸出:直接產生 LaTeX 格式的定理、證明與推導步驟。

實際研究案例

論文記錄了系統輔助解決加法數論(additive number theory)開放問題的案例。對於 h-fold sumset 的直徑下界問題,系統引入 h²-dissociated sets 的構造技術,將指數界(exponential bound)改進至多項式界 O(k^{10h³}),被原始研究者 Isaac Rajagopal 評為「聰明且原創,我自己大概需要一兩週才能想到」。

系統支援的研究階段涵蓋:概念激發與文獻探索、計算實驗、形式驗證(定理證明)、到理論框架建構。FrontierMath Tier 4 包含需要博士級領域知識的困難問題,48% 的得分遠高於此前所有自動化系統。

原始來源:AI Co-Mathematician: Accelerating Mathematicians with Agentic AI (arXiv:2605.06651)


Gemini API File Search 升級多模態:圖文混合語義檢索與自訂 metadata 篩選

Google Developers Blog · 2026-05-09

Google 於 2026 年 5 月 9 日宣布 Gemini API File Search 支援多模態(multimodal)檢索,以 Gemini Embedding 2 模型為基礎,讓代理系統可在文字與圖片混合的文件中進行語義搜尋,不再局限於純文字內容。

核心改動

原有 File Search 僅支援文字語義匹配,此次更新的關鍵在於:原生理解圖片內容,包括 PDF 中的圖表、截圖中的文字(OCR 語義)、以及科學圖像中的視覺特徵。開發者現在可以用自然語言描述視覺特徵進行查詢(例如「找出有折線圖且 Y 軸超過 10,000 的頁面」),而不依賴檔案名稱或關鍵字。

自訂 metadata 與精確定位

新增 key-value metadata 標籤功能,允許開發者在索引時為文件附加結構化屬性(如 department: Legalstatus: Final),並在查詢時過濾:

response = client.files.search(
    query="quarterly revenue chart",
    filter={"department": "Finance", "status": "Final"},
    top_k=5
)

回傳結果包含頁面級引用(page-level citations),明確指出答案來源的頁碼,讓代理系統的引用可追蹤、可驗證。

效能影響

精確的文件定位讓代理系統可以只擷取相關頁面送入上下文,而非整份文件,上下文視窗使用量降低約 50%。同時,當查詢無法在語料庫中找到充分依據時,模型可以明確表示不確定而非推測,減少幻覺。

原始來源:Gemini API File Search is now multimodal (Google Developers Blog)


End of article
0
Would love your thoughts, please comment.x
()
x