2026-05-13 — 本機 AI 超越摩爾定律、AlphaEvolve 工業場景實測、Needle 26M 函數呼叫模型

本機 AI 能力成長速率是摩爾定律的 2.7 倍：兩年間開源模型硬體效率量化分析

Hugging Face · 2026-05-12

Hugging Face 研究員 Mishig Davaadorj 於 2026 年五月發表量化分析，追蹤 2024 年五月至 2026 年五月間，固定硬體（128 GB 記憶體上限的 MacBook Pro）上可運行的最強開源模型能力演進。Artificial Analysis Intelligence Index v4.0 分數從 10（Llama 3 70B Q4）成長至 47（DeepSeek V4 Flash 混合量化），24 個月內翻倍週期僅 10.7 個月，對比摩爾定律的 24 個月，整體領先 2.35 倍。

核心改動

時間點	模型	量化格式	指數分數
2024-05	Llama 3 70B	Q4	10
2024-10	Qwen 2.5 72B	Q4	16
2025-10	gpt-oss-120B	MXFP4 native	33
2026-05	DeepSeek V4 Flash	IQ2_XXS + Q8 mix	47

分析識別出兩次明確的能力跳躍。第一次（2025 年 8 月）：gpt-oss-120B 突破長達一年的 70B 稠密模型上限——總參數量 117B 但每個 token 僅啟動 5.1B 個參數的 MoE 架構，使解碼速度達到 40-60 tokens/sec，分數從 14 跳至 33。第二次（2026 年 4 月）：Qwen3.6 27B Reasoning 以 15 GB 體積達到 46 分，幾乎追平 284B 的 MoE 模型，顯示推理調教（reasoning-tuned RL recipes）在參數效率上的突破。

混合精度量化的角色

DeepSeek V4 Flash（284B 總參數 / 13B 活躍）採用分層混合精度策略：路由至各 Expert 的稀疏權重使用 IQ2_XXS（極端壓縮），注意力層、共享 Expert 與輸出投影層保持 Q8 精度。整個模型壓縮至 80.8 GB，恰好能在 128 GB 上限裝置上運行。相較於均勻 Q4 量化，Q8 對關鍵層的保護抵消了大部分品質退化，整體品質損失約 1-3 個指數點。

硬體瓶頸分析

研究期間 Apple Silicon 記憶體頻寬從 M3 Max 的 400 GB/s 提升至 M5 Max 的 614 GB/s（約 50%），但 RAM 上限始終停留在 128 GB。記憶體容量天花板而非頻寬，是決定哪些模型能在本機運行的關鍵約束。KV cache 的記憶體競爭在超過 10K tokens 的長上下文時使解碼速度下降 30-50%。作者指出若 Apple M6 Max 不突破 128 GB 限制，未來的進步將完全依賴模型在更小參數量下實現更高能力。

原始來源：Hugging Face Blog

AlphaEvolve 擴展至工業場景：基因體學、量子電路與電力網路最佳化的量化結果

Google DeepMind · 2026-05

Google DeepMind 在 2026 年五月更新了 AlphaEvolve 的實際應用報告。這個以 Gemini 為核心的演化式程式設計 Agent 最初以在純數學問題上突破已知最佳解聞名，此次披露了其在多個工業場景中的具體量化成果，標誌著從展示場景進入生產部署週期。

規格細節

AlphaEvolve 的機制是以大型語言模型為突變操作算子，對演算法的程式碼表示進行有向搜尋，再由自動化評測系統篩選出在目標指標上勝出的變體，反覆迭代形成演化壓力。搜尋空間是符號化程式碼而非連續參數空間，能產生人類可讀且可驗證的演算法設計，這點有別於傳統強化學習方法。

實測成果

基因體學：DeepConsensus DNA 定序錯誤修正，變異體偵測錯誤率降低 30%
機器學習力場：Schrödinger 訓練與推理速度約 4 倍加速
電力網路：AC 最佳潮流（AC OPF）圖神經網路解的可行率從 14% 提升至 88%
量子電路：Google Willow 量子電腦電路錯誤率降低至十分之一
TPU 硬體：發現被整合進下一代 TPU 的反直覺電路結構
商業應用：Klarna transformer 訓練速度翻倍；FM Logistic 路線效率提升 10.4%

影響範圍

Schrödinger、Klarna、FM Logistic 等外部組織的參與表明 DeepMind 正在推動夥伴合作模式。對於有明確目標函數且可自動評測的最佳化問題，AlphaEvolve 式的「LLM 作為突變算子」框架已在多個垂直領域展示出超越人工設計的能力。快取替換策略最佳化原本需要數月人工工作，AlphaEvolve 在兩天內完成，提示這類演化搜尋方法在工程最佳化問題的人力替代潛力。

原始來源：Google DeepMind Blog

Needle：從 Gemini 蒸餾出的 2600 萬參數函數呼叫專用模型

Cactus Compute · 2026-05-13

Cactus Compute 在 2026 年五月公開了 Needle，一個專為單次函數呼叫（single-shot function calling）設計的 2600 萬參數模型，透過從 Google Gemini 3.1 蒸餾取得訓練訊號，在 MIT 授權下開源權重與資料集生成程式碼。

架構設計

Needle 採用編解碼器架構，有別於主流生成模型的純解碼器設計。編碼器包含 12 層自注意力（搭配 RoPE 位置編碼，不含前饋層），解碼器為 8 層遮罩自注意力加跨注意力機制。隱藏維度 512、8 個注意力頭搭配 4 個 KV 頭（GQA）、詞表大小 8,192。正規化使用 ZCRMSNorm，殘差連接帶門控（gated residuals），輸入與輸出詞嵌入綁定（tied embeddings）。整個模型刻意移除 FFN 層以維持 2600 萬以下的參數量。

前訓練在 16 個 TPU v6e 上以 2000 億 tokens 完成，耗時 27 小時；針對函數呼叫的後訓練使用 20 億 tokens 的單次呼叫資料集，僅需 45 分鐘。訓練資料由 Gemini 3.1 依照目標任務生成，屬於典型的知識蒸餾管線。

效能與定位

部署於 Cactus 推理基礎設施上，prefill 速度可達 6000 tokens/sec，解碼速度 1200 tokens/sec，在單次函數呼叫基準上優於同量級的 FunctionGemma-270M、Qwen-0.6B 和 Granite-350M。代價是喪失通用對話能力——Needle 刻意針對工具呼叫路由最佳化，不具備通用語言生成能力。對於需要在算力受限環境中執行 AI Agent 工具路由的應用，這個取捨提供了比全功能 LLM 更低的記憶體佔用與更高的吞吐量。

原始來源：Cactus Compute GitHub

End of article