Meta Muse Spark:原生多模態推理模型,Contemplating 模式達 HLE 58%
Meta AI Blog · 2026-04-08
Meta Superintelligence Labs 於 2026 年 4 月 8 日發布 Muse Spark,這是 Muse 模型家族的第一個成員。Muse Spark 是以原生多模態架構設計的推理模型,而非語言模型加掛視覺模組,支援工具呼叫、視覺思維鏈(visual chain-of-thought)以及多 Agent 協作。在 Humanity's Last Exam(HLE)上,Contemplating 模式得分 58%,進入頂尖推理模型行列。
架構設計
Muse Spark 的訓練堆疊在九個月內從頭重建,核心改動涉及模型架構、最佳化器與資料策略三個層面。Muse Spark 達到相同能力所需算力低於 Llama 4 Maverick 超過一個數量級,體現了訓練效率的實質提升。強化學習(RL)在大規模訓練下呈現穩定的對數線性成長——pass@1 與 pass@16 在訓練資料上都保持對數線性,並可泛化至 held-out 評估集,Meta 稱這是近期 RL scaling 研究中少見的穩定性。
思考壓縮(thought compression)機制讓模型在推理時以較少 token 解決相同問題——在 AIME 等任務上可觀測到 token 效率的顯著改善。Contemplating 模式在多個子 Agent 平行執行的情況下保持與單次推理相近的延遲。
三層推理模式
Muse Spark 提供三個推理層級:
- Instant:即時回應,適合日常查詢
- Thinking:逐步思維鏈,類比 Claude Sonnet 的 extended thinking
- Contemplating:平行多子 Agent 協作,Meta 對標 Gemini Deep Think 與 GPT Pro 的極限推理模式
基準表現
| 基準 | Muse Spark (Contemplating) | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| Humanity's Last Exam | 58% | 53% | 57% |
| FrontierScience Research | 38% | — | — |
| HealthBench Hard | 42.8% | 14.8% | 20.6% |
HealthBench Hard 的顯著優勢來自 1,000 位以上醫師參與的訓練資料策展,Meta 將此列為健康推理領域的核心差異化能力。Apollo Research 的評估中發現模型對「alignment trap」有高度評估意識——識別評估情境的能力較強,Meta 認為不構成上市阻礙。
Muse Spark 現已在 meta.ai 與 Meta AI App 提供,API 私有預覽向選定用戶開放;Contemplating 模式逐步推出。
原始來源:Meta AI Blog
AI 蠕蟲:LLM Agent 如何使傳統電腦蠕蟲具備自適應攻擊能力
arXiv:2606.03811 · 多倫多大學 · 2026-06-02
多倫多大學、劍橋大學與 ServiceNow 研究員於 arXiv 發表論文(arXiv:2606.03811),展示一種以開放權重 LLM 驅動的自我繁殖電腦蠕蟲,能夠在 Linux、Windows 與 IoT 混合網路中自主傳播,並為每個目標生成量身定制的攻擊策略,而非使用固定漏洞利用程式碼。
核心架構
蠕蟲的行動迴圈由八個階段組成,緊密模仿人類滲透測試人員的工作流程:偵察、漏洞識別、漏洞選擇、利用嘗試、權限提升、橫向移動、持久化,以及 LLM 負載遷移。關鍵創新在於 LLM 負載遷移:蠕蟲在入侵新主機後,利用該主機的算力執行開放權重 LLM(需一張 A100 80GB 或同等級 GPU),從而在不依賴攻擊者控制基礎設施的情況下維持推理能力。由於執行算力來自被入侵機器,攻擊者的每次新感染邊際成本為零。
攻擊策略生成不依賴預先定義的漏洞資料庫,而是由 LLM 在運行時觀察目標環境(開放埠、服務版本、配置錯誤)後即時推理,選擇最適合的攻擊路徑。這使蠕蟲對於未在訓練資料中出現的新型網路設定仍具備一定的適應能力。
實驗設置與倫理考量
研究者在包含 Linux、Windows 與 IoT 裝置的隔離測試網路中部署蠕蟲,利用常見的企業網路漏洞(弱認證、未修補服務、配置錯誤)進行傳播測試。論文刻意省略具體的漏洞利用技術細節,僅提供足以使威脅可信的資訊;程式碼不公開,僅向具備防禦研究目的的研究者提供受控訪問。
防禦意涵
論文指出,現有的 IDS/IPS 系統主要識別已知的固定攻擊模式,對於每個目標生成不同攻擊序列的 LLM 驅動蠕蟲,基於簽名的偵測效果大幅降低。論文建議防守方關注行為異常偵測(如異常的 LLM 推理負載)而非攻擊模式匹配,並優先修補弱認證與配置錯誤等初始接入向量。
原始來源:arXiv:2606.03811
Nemotron 3.5 ASR Fine-Tuning:領域自適應語音辨識的技術路徑
Hugging Face Blog · NVIDIA · 2026-06-05
NVIDIA 在 Hugging Face Blog 發布 Nemotron 3.5 ASR(自動語音辨識)模型的 fine-tuning 指南,說明如何針對特定語言、領域(醫療、法律、技術)或口音進行客製化。Nemotron 3.5 ASR 基於 CTC(Connectionist Temporal Classification)與 attention decoder 混合架構,支援多語言基礎訓練後的語言特定微調,無需從頭訓練。
領域自適應技術
指南描述三種漸進式適應策略:
- 語言特定微調:使用目標語言的少量標注資料(數小時)在語言模型層進行微調,聲學特徵提取層保持不動
- 領域詞彙增強:透過詞彙表擴充(vocabulary expansion)為 BPE tokenizer 加入領域特定術語,搭配語言模型分數插值(LM score interpolation)提升特定詞彙的識別準確率
- 口音適應:使用少量(50–200 小時)特定口音的語音資料進行階段式微調,先適應聲學模型,再微調語言解碼層
LoRA(Low-Rank Adaptation)方法在所有三種場景中均有展示,以較低 GPU 記憶體需求(4–8 GB)達到接近全量微調的效果,適合資源受限的部署環境。
評估指標與實際效果
指南以詞錯誤率(WER)作為主要評估指標,並強調在領域自適應時需要特別注意大小寫不敏感 WER 與精確 WER 的差異——在醫療領域,大小寫錯誤(如 HIV vs hiv)會在不區分大小寫的指標中被掩蓋但在臨床應用中具有語義意義。Nemotron 3.5 ASR 模型在 NVIDIA NIM 上提供服務,支援 Triton Inference Server 部署。