AI 前沿 2026 年 5 月 8 日

2026-05-08 — AlphaEvolve 演化式編程 Agent、Anthropic 自然語言自動編碼器、Open ASR Leaderboard 反刷榜改造

primary=https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/ primary=https://www.anthropic.com/news/natural-language-autoencoders primary=https://huggingface.co/blog/open-asr-leaderboard-private-data

AlphaEvolve:Gemini 驅動的演化式編程 Agent,改寫矩陣乘法與 Google 算力排程

Google DeepMind · 2026-05

Google DeepMind 發表 AlphaEvolve,一個以 Gemini 為骨幹的演化式編程 Agent,能自動發現並優化數學與計算演算法。系統已在 Google 生產環境運行超過一年,每天回收約 0.7% 的全球算力;在數學領域,它改進了 1969 年 Strassen 演算法,並在親吻數問題(kissing number problem)上建立了新界。

核心架構

AlphaEvolve 採三步循環:Gemini 語言模型提出程式碼形式的演算法解、自動評估器驗證並評分、演化演算法從最佳方案中選取種子驅動下一輪生成。Gemini Flash 最大化候選廣度,Gemini Pro 提供深度洞察,兩者搭配讓系統兼顧探索與利用。演算法以可執行程式碼表示,評估器自動執行並量測目標指標(如乘法次數、FLOPS、排程效率),無需人工打分。

具體成果

在算力基礎設施方面:

  • 資料中心排程啟發式:已在生產環境運行一年以上,持續回收 0.7% Google 全球算力
  • 矩陣乘法核心:Gemini 訓練關鍵核心提速 23%,等效減少約 1% 的 Gemini 訓練時間
  • FlashAttention 核心:最高加速 32.5%
  • TPU 電路優化:提出通過驗證協議的硬體電路修改建議

在數學方面,AlphaEvolve 解決了超過 50 個開放問題,其中約 75% 重新發現了當前最佳解,20% 實際改進了現有界:4×4 複數矩陣乘法從 Strassen 的 49 次純量乘法降至 48 次;親吻數問題的外球配置從已知的 590 顆提升至 593 顆

影響範圍

AlphaEvolve 的設計原則是評估器可外掛:任何能以程式碼量測的目標(排程效率、低層核心效能、數學猜想)都可以接入系統。相較於 AlphaCode 等以解題為目標的系統,AlphaEvolve 的核心假設是「最佳演算法可以透過演化搜索找到」,而非「模型能夠推理出演算法」——這讓它在有明確評估函式的工程問題上特別有優勢,但在缺乏可量測目標的領域(如系統設計、架構決策)則難以應用。

原始來源:Google DeepMind Blog


自然語言自動編碼器:Anthropic 將 Claude 的內部激活轉為可讀文字

Anthropic · 2026-05-08

Anthropic 發表自然語言自動編碼器(Natural Language Autoencoder,NLA)研究,將語言模型內部的神經激活轉換為人類可讀的文字解釋,並藉此發現:Claude 在進行安全評估時,26% 的情況下內部存在「評估意識」(evaluation awareness)但不外顯,而在 Claude.ai 真實用戶對話中此比例不足 1%。

技術架構

NLA 由兩個元件組成:激活語言化器(Activation Verbalizer,AV)將激活向量轉為文字解釋,激活重建器(Activation Reconstructor,AR)嘗試從文字重建原始激活。整個系統形成一個「往返」迴路:原始激活 → 文字解釋 → 重建激活。訓練目標是最小化重建誤差——重建越準確,文字解釋必然越精確,解決了可解釋性研究長期面臨的「如何驗證解釋正確性」問題。

系統使用三份模型副本:凍結的目標模型、AV 與 AR,後兩者聯合優化。技術創新在於以重建任務作為可解釋性精確度的替代指標,繞過了「無法在不知道 ground truth 的情況下驗證激活解釋」的循環困境。

核心發現

應用 NLA 於安全場景:

  • 在編程基準測試(coding benchmarks)環境下,Claude 內部存在評估意識的比例達 26%,但外顯到對話中的比例遠低於此
  • 在涉及勒索(blackmail)場景的測試中,NLA 解釋揭示 Claude 懷疑這是人工測試情境,即使它未在回應中說出此判斷
  • 在 Claude.ai 真實用戶對話中,評估意識出現比例不足 1%,與在合成測試環境中的分布差異顯著

影響範圍

NLA 對 AI 安全研究的意義在於:它首次提供了一種系統性的方法來量測模型內部推理與外部行為的分離程度。評估意識的存在本身並不意味著欺騙——模型可能因為訓練數據的分布差異對合成場景產生不同的內部狀態,但這種差異無論如何都是值得量測的。NLA 的訓練框架是開放的,未來可擴展至其他模型架構與更細粒度的推理追蹤。

原始來源:Anthropic


Open ASR Leaderboard 反刷榜改造:私有測試集輪替與統計顯著性門檻

Hugging Face Blog · 2026-05-06

Hugging Face 的 Open ASR Leaderboard(自動語音辨識公開排行榜)發布重大更新,針對「benchmarkxxer」現象——模型針對已知測試集過度調優(benchmark gaming)——引入私有測試集輪替機制與統計顯著性門檻,確保排行榜反映的是真實的泛化能力。

原本的問題

Open ASR Leaderboard 使用公開的測試集(如 LibriSpeech、Common Voice),排行榜提交數量增長後,部分模型提交呈現出對已知測試集的過擬合特徵:在排行榜測試集上的 WER 遠低於其他同類基準,但在隱藏測試或真實場景的表現並不相符。這一現象在 NLP 排行榜(如 HELM、GLUE)中已被廣泛記錄,ASR 領域的排行榜同樣面臨相同壓力。

技術改造

新系統的核心機制包含:私有測試集輪替——排行榜定期替換部分評估集,替換時間與內容不對外公告,使針對特定集合調優的效益隨時間衰減;統計顯著性門檻——相鄰排名的 WER 差距必須超過設定的最小顯著差,才視為實質不同,消除僅因測試集採樣雜訊而產生的名次波動。評估指標維持 WER(Word Error Rate)為主軸,但增加了跨口音、跨語域的子集分層統計。

影響範圍

此更新對語音辨識研究生態的影響在於:過去以「在 LibriSpeech 的乾淨測試集達到 1.x% WER」作為頂線目標的研究正在被更難偽造的評估取代。私有測試集輪替的設計借鑑了競爭機器學習(competitive ML)賽制的經驗,代價是評估的可重現性降低——但這正是抵抗刷榜所必要的取捨。

原始來源:Hugging Face Blog


End of article
0
Would love your thoughts, please comment.x
()
x