2026-05-12 — 本機 AI 超越摩爾定律、GraphDPO 偏好圖訓練框架

本機 AI 每 10.7 個月翻倍：稀疏 MoE 與混合量化讓筆電超越摩爾定律

HuggingFace Blog · 2026-05-12

一篇以 MacBook Pro 為基準、系統記錄兩年本機 AI 進展的文章於 2026-05-12 發布。作者以搭載 M3/M4/M5 Max 晶片的 128 GB 機型為測試平台，用 Artificial Analysis Intelligence Index v4.0 追蹤 2024 年 5 月至 2026 年 5 月的模型性能曲線，核心結論是：本機 AI 能力每 10.7 個月翻倍，快於摩爾定律的 24 個月周期。硬體三代之間的記憶體容量全程固定在 128 GB，進步純粹來自模型架構與量化技術。

性能進展

時間點	模型	量化	指數分數
2024-05	Llama 3 70B Instruct	Q4	10
2024-10	Qwen 2.5 72B Instruct	Q4	16
2025-10	gpt-oss-120B	MXFP4 native	33
2026-05	DeepSeek V4 Flash	IQ2_XXS + Q8 mix	47

稀疏 MoE：解耦模型容量與每 token 計算

Sparse Mixture of Experts（MoE） 是最主要的驅動因素。DeepSeek V4 Flash 總參數量為 284B，但每個 token 只啟動 13B 參數；採用 IQ2_XXS + Q8 混合精度後，GGUF 打包大小為 80.8 GB，可裝入 128 GB 統一記憶體，在 M4 Max 上的解碼速度達 40–60 tokens/sec。gpt-oss-120B 採類似設計：120B 總參數、5.1B 啟動，原生 MXFP4 量化後 63 GB。

混合量化策略

均勻低精度量化在高壓縮比下品質劣化明顯。混合精度方案針對不同子模組採用不同位元寬度——大量路由的 MoE 專家層用 IQ2_XXS（極端壓縮），注意力機制、共享專家與輸出層用 Q8（保留精度）——在總大小不變的情況下整體品質高於均勻 Q4。

小型推理調校模型的等效能力

另一條路線是透過強化學習與明確的 chain-of-thought 訓練提升小型 dense 模型的推理深度。Qwen3.6 27B Reasoning（Q4，約 15 GB）在同一指數上達到 46 分，幾乎等同 DeepSeek V4 Flash 的 47 分，但記憶體需求降低 5 倍以上。

實際限制

已記錄的硬性瓶頸：最低可用速度門檻為 5 tokens/sec；上下文超過 10K token 後解碼速度下降 30–50%（KV cache 快速消耗記憶體）；大型 MoE 模型在 64K 以上上下文效益遞減。三代 MacBook Pro 的記憶體頻寬提升約 50%（400 → 614 GB/s），對實際速度的貢獻遠小於架構改進。

原始來源：HuggingFace Blog — Two Years of Local AI on a Laptop: When Open Models Outpaced Moore's Law

GraphDPO：語言模型偏好對齊從成對比較升級為偏好圖的理論框架

arXiv:2605.08037 · 2026-05-12

arXiv 論文 2605.08037「Beyond Pairs: Your Language Model is Secretly Optimizing a Preference Graph」提出 GraphDPO，針對 Direct Preference Optimization（DPO）訓練資料從多次 rollout 折疊為獨立成對比較這一做法的理論缺陷，提出以有向無環偏好圖取代成對資料格式的替代方案。

DPO 的結構缺陷

標準 DPO 將訓練資料表示為 (prompt, chosen, rejected) 三元組，每對獨立計算損失。當同一 prompt 有多次 rollout 排名資料時，強制折疊為獨立成對會發生三個問題：傳遞性（transitivity）丟失——若 A > B > C，將 (A,C) 與 (A,B) 視為獨立對會浪費關聯信號；冗餘監督——同一比較關係被重複提供；衝突監督——不同 rollout 間存在矛盾標注時無法解決，導致優化不穩定。

GraphDPO 的方法

GraphDPO 以 rollout 排名直接建構有向無環偏好圖（DAG），支配關係作為圖的有向邊。損失函式採用 Plackett-Luce 啟發的目標，在每個節點的鄰域上聚合監督信號，透過 log-sum-exp 保持每 prompt 線性時間複雜度。可選擇將有驗證解的節點作為支配錨點（dominant anchor node），並對離散信號建構等價類（equivalence class）以合併同等品質的回應。

實作意義

對 RLHF/DPO 實務而言，這項研究的核心建議是：在多 rollout 設定下，保留偏好圖的結構而非將其展平為獨立成對。GraphDPO 在推理與程式合成任務上優於標準 DPO 基線，且不顯著增加計算負擔。偏好資料集的收集流程也因此需要考慮保存 rollout 的完整排名關係，而非只記錄最佳/最差對。

原始來源：arXiv:2605.08037 — Beyond Pairs: Your Language Model is Secretly Optimizing a Preference Graph

End of article