Gemma 4 QAT:量化感知訓練讓 E2B 模型壓縮至 1GB 以下
Google Blog · 2026-06-06
Google 發布 Gemma 4 的量化感知訓練(Quantization-Aware Training,QAT)checkpoints,提供 Q4_0 格式與針對行動裝置最佳化的自訂量化格式。可用模型尺寸包含 E2B、E4B 與 26B MOE 變體。Gemma 4 E2B 在行動量化格式下壓縮至低於 1GB 記憶體,text-only 變體(不含 Per-Layer Embeddings)甚至低於 1GB,可在消費級硬體上流暢本地執行。
QAT 的技術原理
傳統的訓練後量化(Post-Training Quantization,PTQ)在精度損失方面有固有限制:量化操作是事後施加的,模型的權重分佈並未為量化而最佳化。QAT 的差異在於將量化誤差直接整合進訓練過程——在前向傳播中模擬量化效果,讓模型在訓練時學習補償量化帶來的精度損失,最終產生的權重分佈對量化更為友好,精度損失顯著小於 PTQ。
行動端量化格式的四項關鍵設計
Google 針對邊緣設備發布的自訂行動量化格式包含四個相互配合的最佳化設計:
- 靜態激活(Static activations):預先計算縮放係數,減少行動晶片在推理時的動態計算負擔
- 通道量化(Channel-wise quantization):資料結構符合行動加速器(如 Apple Neural Engine、高通 Hexagon)的原生處理格式
- 目標 2-bit 量化:對 token 生成元件使用 2-bit 重度壓縮,同時保留推理層(reasoning layers)的精度
- Embedding 與 KV cache 最佳化:針對詞彙表記憶體與短期記憶進行聚焦壓縮
影響範圍
Gemma 4 E2B QAT 的意義在於打破了模型能力與邊緣部署之間的障礙。低於 1GB 的記憶體需求使其可在 4GB RAM 的行動裝置上與其他應用程序共存執行,而不是佔用整個可用記憶體。Q4_0 格式與 llama.cpp、Ollama、ExLlamaV2 等主流推理框架相容,行動格式則針對 Google 自身的 MediaPipe LLM Inference API 最佳化。對於需要離線推理、隱私保護或低延遲的應用場景,這個尺寸級別的模型開啟了更廣泛的部署可能。
原始來源:Google Blog
EVA-Bench Data 2.0:企業 AI Agent 的 121 工具、213 場景評估基準
Hugging Face Blog · ServiceNow-AI · 2026-06-04
ServiceNow AI 發布 EVA-Bench Data 2.0,一套針對企業電話服務場景的 AI Agent 評估基準。相較 1.0 版本,場景數量擴大約 4 倍,涵蓋 3 個企業領域、121 個工具呼叫 API、213 個評估場景,所有場景均有唯一正確的解決路徑。
三個領域設計
EVA-Bench 2.0 選取的三個企業領域反映真實的電話客服工作流:
- 航空公司客戶服務管理(CSM):50 個場景,聚焦航班改簽與客服任務
- 企業 IT 服務管理(ITSM):80 個場景,涵蓋 IT 支援與帳號存取工作流
- 醫療保健 HR 服務交付(HRSD):83 個場景,處理 HR 行政與醫療保健政策,包括實際的美國醫療法規(FMLA、NPI 編號)
場景生成方法:SyGra
場景透過 SyGra 管道生成,一個以 GPT-5.4 為基礎的圖形化合成資料 pipeline。每個場景包含三個聯合生成的元件:(1)用戶目標決策樹,規定精確的用戶行為序列與解決條件;(2)初始場景資料庫,存放 Agent 工具可查詢的後端狀態;(3)ground truth 最終狀態,定義正確操作後的預期結果。多階段驗證流程檢查結構一致性與政策合規性,並以 GPT-5.4、Gemini 3.1 Pro 與 Claude Opus 4.6 三個前沿模型實際執行場景,過濾掉無法解決的場景。
評估採用機器對機器(bot-to-bot)方式:被測 Agent 與模擬用戶互動,評估系統檢查 Agent 是否根據政策要求和用戶目標正確修改資料庫狀態,而非依賴人工評估。每個場景恰好有一條正確解決路徑的設計保證了評估的確定性。
影響範圍
EVA-Bench 2.0 的設計選擇反映了企業 Agent 評估的幾個關鍵挑戰:語音優先(voice-first)的場景設計要求 Agent 處理自然語言的模糊性;認證流程的納入測試 Agent 的安全邊界;而對抗性場景(嘗試繞過安全措施)則評估 Agent 的政策遵守能力。場景包含實際法規(FMLA、NPI 合規性)而非抽象規則,使評估結果更能預測在真實企業環境中的部署行為。
原始來源:Hugging Face Blog
Transformers Are Inherently Succinct:Transformer 模型壓縮能力的理論分析
OpenReview · 2026-06-06
一篇在 Hacker News 引發討論的論文(OpenReview ID: Yxz92UuPLQ)提出理論分析:Transformer 架構在本質上具有「簡潔性(succinctness)」,即它們能夠以緊湊的方式表示一大類函數,這個特性使 Transformer 模型在壓縮後仍能保留大部分能力,並為模型量化和剪枝的實際效果提供了理論基礎。
核心論點
論文的核心主張是:Transformer 並非因為參數規模龐大才能解決複雜任務,而是因為其架構結構本身天然地具有表示效率。注意力機制的低秩特性(attention matrices in practice operate in low-rank regimes)意味著理論上高維度的 QKV 矩陣在實際計算中只佔用有效秩遠低於其維度的子空間。這讓模型在壓縮時可以移除大量「沉默維度」而不損失主要能力。
論文進一步分析了 Transformer 的「簡潔性」與電路複雜度(circuit complexity)的關係,說明 Transformer 可以用比許多其他架構更少的計算步驟表示相同的計算,這也部分解釋了為何 Transformer 在 scaling 時表現出優異的計算效率。
影響範圍
這個理論結果有幾個實際意涵。首先,它支持了 QAT(量化感知訓練)在 Transformer 上比在 CNN 等架構上效果更好的實驗觀察,因為 Transformer 的低秩特性使量化誤差更容易被訓練補償。其次,它提示剪枝策略應優先針對「沉默維度」而非均勻剪枝。HN 的討論(64 分,26 留言)主要聚焦於論文與 lottery ticket hypothesis 的關係,以及是否適用於 MoE(Mixture of Experts)架構。
原始來源:OpenReview