本機 AI 每 10.7 個月翻倍:稀疏 MoE 與混合量化讓筆電超越摩爾定律
HuggingFace Blog · 2026-05-12
一篇以 MacBook Pro 為基準、系統記錄兩年本機 AI 進展的文章於 2026-05-12 發布。作者以搭載 M3/M4/M5 Max 晶片的 128 GB 機型為測試平台,用 Artificial Analysis Intelligence Index v4.0 追蹤 2024 年 5 月至 2026 年 5 月的模型性能曲線,核心結論是:本機 AI 能力每 10.7 個月翻倍,快於摩爾定律的 24 個月周期。硬體三代之間的記憶體容量全程固定在 128 GB,進步純粹來自模型架構與量化技術。
性能進展
| 時間點 | 模型 | 量化 | 指數分數 |
|---|---|---|---|
| 2024-05 | Llama 3 70B Instruct | Q4 | 10 |
| 2024-10 | Qwen 2.5 72B Instruct | Q4 | 16 |
| 2025-10 | gpt-oss-120B | MXFP4 native | 33 |
| 2026-05 | DeepSeek V4 Flash | IQ2_XXS + Q8 mix | 47 |
稀疏 MoE:解耦模型容量與每 token 計算
Sparse Mixture of Experts(MoE) 是最主要的驅動因素。DeepSeek V4 Flash 總參數量為 284B,但每個 token 只啟動 13B 參數;採用 IQ2_XXS + Q8 混合精度後,GGUF 打包大小為 80.8 GB,可裝入 128 GB 統一記憶體,在 M4 Max 上的解碼速度達 40–60 tokens/sec。gpt-oss-120B 採類似設計:120B 總參數、5.1B 啟動,原生 MXFP4 量化後 63 GB。
混合量化策略
均勻低精度量化在高壓縮比下品質劣化明顯。混合精度方案針對不同子模組採用不同位元寬度——大量路由的 MoE 專家層用 IQ2_XXS(極端壓縮),注意力機制、共享專家與輸出層用 Q8(保留精度)——在總大小不變的情況下整體品質高於均勻 Q4。
小型推理調校模型的等效能力
另一條路線是透過強化學習與明確的 chain-of-thought 訓練提升小型 dense 模型的推理深度。Qwen3.6 27B Reasoning(Q4,約 15 GB)在同一指數上達到 46 分,幾乎等同 DeepSeek V4 Flash 的 47 分,但記憶體需求降低 5 倍以上。
實際限制
已記錄的硬性瓶頸:最低可用速度門檻為 5 tokens/sec;上下文超過 10K token 後解碼速度下降 30–50%(KV cache 快速消耗記憶體);大型 MoE 模型在 64K 以上上下文效益遞減。三代 MacBook Pro 的記憶體頻寬提升約 50%(400 → 614 GB/s),對實際速度的貢獻遠小於架構改進。
原始來源:HuggingFace Blog — Two Years of Local AI on a Laptop: When Open Models Outpaced Moore's Law
GraphDPO:語言模型偏好對齊從成對比較升級為偏好圖的理論框架
arXiv:2605.08037 · 2026-05-12
arXiv 論文 2605.08037「Beyond Pairs: Your Language Model is Secretly Optimizing a Preference Graph」提出 GraphDPO,針對 Direct Preference Optimization(DPO)訓練資料從多次 rollout 折疊為獨立成對比較這一做法的理論缺陷,提出以有向無環偏好圖取代成對資料格式的替代方案。
DPO 的結構缺陷
標準 DPO 將訓練資料表示為 (prompt, chosen, rejected) 三元組,每對獨立計算損失。當同一 prompt 有多次 rollout 排名資料時,強制折疊為獨立成對會發生三個問題:傳遞性(transitivity)丟失——若 A > B > C,將 (A,C) 與 (A,B) 視為獨立對會浪費關聯信號;冗餘監督——同一比較關係被重複提供;衝突監督——不同 rollout 間存在矛盾標注時無法解決,導致優化不穩定。
GraphDPO 的方法
GraphDPO 以 rollout 排名直接建構有向無環偏好圖(DAG),支配關係作為圖的有向邊。損失函式採用 Plackett-Luce 啟發的目標,在每個節點的鄰域上聚合監督信號,透過 log-sum-exp 保持每 prompt 線性時間複雜度。可選擇將有驗證解的節點作為支配錨點(dominant anchor node),並對離散信號建構等價類(equivalence class)以合併同等品質的回應。
實作意義
對 RLHF/DPO 實務而言,這項研究的核心建議是:在多 rollout 設定下,保留偏好圖的結構而非將其展平為獨立成對。GraphDPO 在推理與程式合成任務上優於標準 DPO 基線,且不顯著增加計算負擔。偏好資料集的收集流程也因此需要考慮保存 rollout 的完整排名關係,而非只記錄最佳/最差對。
原始來源:arXiv:2605.08037 — Beyond Pairs: Your Language Model is Secretly Optimizing a Preference Graph