本機 AI 能力成長速率是摩爾定律的 2.7 倍:兩年間開源模型硬體效率量化分析
Hugging Face · 2026-05-12
Hugging Face 研究員 Mishig Davaadorj 於 2026 年五月發表量化分析,追蹤 2024 年五月至 2026 年五月間,固定硬體(128 GB 記憶體上限的 MacBook Pro)上可運行的最強開源模型能力演進。Artificial Analysis Intelligence Index v4.0 分數從 10(Llama 3 70B Q4)成長至 47(DeepSeek V4 Flash 混合量化),24 個月內翻倍週期僅 10.7 個月,對比摩爾定律的 24 個月,整體領先 2.35 倍。
核心改動
| 時間點 | 模型 | 量化格式 | 指數分數 |
|---|---|---|---|
| 2024-05 | Llama 3 70B | Q4 | 10 |
| 2024-10 | Qwen 2.5 72B | Q4 | 16 |
| 2025-10 | gpt-oss-120B | MXFP4 native | 33 |
| 2026-05 | DeepSeek V4 Flash | IQ2_XXS + Q8 mix | 47 |
分析識別出兩次明確的能力跳躍。第一次(2025 年 8 月):gpt-oss-120B 突破長達一年的 70B 稠密模型上限——總參數量 117B 但每個 token 僅啟動 5.1B 個參數的 MoE 架構,使解碼速度達到 40-60 tokens/sec,分數從 14 跳至 33。第二次(2026 年 4 月):Qwen3.6 27B Reasoning 以 15 GB 體積達到 46 分,幾乎追平 284B 的 MoE 模型,顯示推理調教(reasoning-tuned RL recipes)在參數效率上的突破。
混合精度量化的角色
DeepSeek V4 Flash(284B 總參數 / 13B 活躍)採用分層混合精度策略:路由至各 Expert 的稀疏權重使用 IQ2_XXS(極端壓縮),注意力層、共享 Expert 與輸出投影層保持 Q8 精度。整個模型壓縮至 80.8 GB,恰好能在 128 GB 上限裝置上運行。相較於均勻 Q4 量化,Q8 對關鍵層的保護抵消了大部分品質退化,整體品質損失約 1-3 個指數點。
硬體瓶頸分析
研究期間 Apple Silicon 記憶體頻寬從 M3 Max 的 400 GB/s 提升至 M5 Max 的 614 GB/s(約 50%),但 RAM 上限始終停留在 128 GB。記憶體容量天花板而非頻寬,是決定哪些模型能在本機運行的關鍵約束。KV cache 的記憶體競爭在超過 10K tokens 的長上下文時使解碼速度下降 30-50%。作者指出若 Apple M6 Max 不突破 128 GB 限制,未來的進步將完全依賴模型在更小參數量下實現更高能力。
原始來源:Hugging Face Blog
AlphaEvolve 擴展至工業場景:基因體學、量子電路與電力網路最佳化的量化結果
Google DeepMind · 2026-05
Google DeepMind 在 2026 年五月更新了 AlphaEvolve 的實際應用報告。這個以 Gemini 為核心的演化式程式設計 Agent 最初以在純數學問題上突破已知最佳解聞名,此次披露了其在多個工業場景中的具體量化成果,標誌著從展示場景進入生產部署週期。
規格細節
AlphaEvolve 的機制是以大型語言模型為突變操作算子,對演算法的程式碼表示進行有向搜尋,再由自動化評測系統篩選出在目標指標上勝出的變體,反覆迭代形成演化壓力。搜尋空間是符號化程式碼而非連續參數空間,能產生人類可讀且可驗證的演算法設計,這點有別於傳統強化學習方法。
實測成果
- 基因體學:DeepConsensus DNA 定序錯誤修正,變異體偵測錯誤率降低 30%
- 機器學習力場:Schrödinger 訓練與推理速度約 4 倍加速
- 電力網路:AC 最佳潮流(AC OPF)圖神經網路解的可行率從 14% 提升至 88%
- 量子電路:Google Willow 量子電腦電路錯誤率降低至十分之一
- TPU 硬體:發現被整合進下一代 TPU 的反直覺電路結構
- 商業應用:Klarna transformer 訓練速度翻倍;FM Logistic 路線效率提升 10.4%
影響範圍
Schrödinger、Klarna、FM Logistic 等外部組織的參與表明 DeepMind 正在推動夥伴合作模式。對於有明確目標函數且可自動評測的最佳化問題,AlphaEvolve 式的「LLM 作為突變算子」框架已在多個垂直領域展示出超越人工設計的能力。快取替換策略最佳化原本需要數月人工工作,AlphaEvolve 在兩天內完成,提示這類演化搜尋方法在工程最佳化問題的人力替代潛力。
原始來源:Google DeepMind Blog
Needle:從 Gemini 蒸餾出的 2600 萬參數函數呼叫專用模型
Cactus Compute · 2026-05-13
Cactus Compute 在 2026 年五月公開了 Needle,一個專為單次函數呼叫(single-shot function calling)設計的 2600 萬參數模型,透過從 Google Gemini 3.1 蒸餾取得訓練訊號,在 MIT 授權下開源權重與資料集生成程式碼。
架構設計
Needle 採用編解碼器架構,有別於主流生成模型的純解碼器設計。編碼器包含 12 層自注意力(搭配 RoPE 位置編碼,不含前饋層),解碼器為 8 層遮罩自注意力加跨注意力機制。隱藏維度 512、8 個注意力頭搭配 4 個 KV 頭(GQA)、詞表大小 8,192。正規化使用 ZCRMSNorm,殘差連接帶門控(gated residuals),輸入與輸出詞嵌入綁定(tied embeddings)。整個模型刻意移除 FFN 層以維持 2600 萬以下的參數量。
前訓練在 16 個 TPU v6e 上以 2000 億 tokens 完成,耗時 27 小時;針對函數呼叫的後訓練使用 20 億 tokens 的單次呼叫資料集,僅需 45 分鐘。訓練資料由 Gemini 3.1 依照目標任務生成,屬於典型的知識蒸餾管線。
效能與定位
部署於 Cactus 推理基礎設施上,prefill 速度可達 6000 tokens/sec,解碼速度 1200 tokens/sec,在單次函數呼叫基準上優於同量級的 FunctionGemma-270M、Qwen-0.6B 和 Granite-350M。代價是喪失通用對話能力——Needle 刻意針對工具呼叫路由最佳化,不具備通用語言生成能力。對於需要在算力受限環境中執行 AI Agent 工具路由的應用,這個取捨提供了比全功能 LLM 更低的記憶體佔用與更高的吞吐量。