2026-06-30 — vLLM 協作路由超越前沿模型、Apple ANE 逆向工程、Ornith 開源代理編碼

2026-06-30 工程日報 — AI/ML

vLLM Semantic Router：讓多模型協作成為一次 API 呼叫

vLLM Blog · 2026-06-29

vLLM 團隊於 2026 年 6 月 29 日發布 Micro-Agent 架構，將多模型協作邏輯下沉至推論服務層，以單一 OpenAI 相容端點 vllm-sr/auto 對外呈現。呼叫方無需感知內部發生了哪些模型切換或投票，路由器在幕後決定執行拓樸。這項設計的核心主張是「讓協作感覺像呼叫一個模型」。

Semantic Router 作為主動控制平面

傳統路由器只做靜態分流；Semantic Router 則扮演主動決策系統，從請求中提取語義訊號後投影至任務類別與風險帶，再比對對應的執行演算法。模型憑證、成本元資料、失敗重試策略均由路由器統一管轄，不暴露給呼叫方。路由拓樸可隨時升級，客戶端程式碼無需任何修改，完整追蹤仍可觀測。

請求入口僅需指定模型名稱：

{
  "model": "vllm-sr/auto",
  "messages": [{"role": "user", "content": "..."}]
}

五種 Looper 演算法

Confidence 採循序升級策略，先由低成本模型執行，透過 log probability、自我驗證或蘊含檢查評估信心分數，不足才升級至更強模型。Ratings 在並行上限下同時呼叫多個候選模型，再以評分感知聚合法選出最佳回應。兩者均以降低不必要呼叫成本為核心目標。

ReMoM：扇出多次推理嘗試，等待法定數量成功後合成輸出；合成失敗時觸發備援機制。
Fusion：以模型間分歧作為訊號，由獨立模型組成評審團，再由裁判分析後由終結器輸出最終答案。
Workflows：有界 Micro-Agent 執行期，包含規劃器、工作器、驗證步驟與終結器，設有最大步驟數、並行限制與錯誤策略。

Auto Recipe 依任務特性自動選擇演算法：選擇題保留題型觸發 ReMoM，程式碼任務偵測隱藏測試風險，形式推理偵測分歧風險。每個 Recipe 定義模型池、角色分工、推理力度、並行度與法定人數。

基準測試成績

基準測試	VSR Closed	VSR Hybrid	最佳單一前沿模型（參考）
LiveCodeBench	92.6%	—	GPT-5.5 90.7%
GPQA-Diamond	96.0%	—	Gemini 3.1 Pro 94.3%
Humanity's Last Exam	50.0%	47.1%	Fugu 48.5%

VSR Hybrid 混合開源與閉源模型，在 Humanity's Last Exam 達到 47.1，超越多個單獨前沿模型的 40.5–41.4 區間。這表明即使不依賴最強閉源模型，透過協作架構仍可逼近或超越單一旗艦模型的表現上限。

原始來源：vLLM Blog — Micro-Agent: Beat Frontier Models with Collaboration Inside Model API

Apple Neural Engine 完整技術剖析：從矽到使用者空間的 302 頁逆向工程報告

arXiv · 2026-06-21

史丹佛大學研究員 Spencer H. Bryngelson 於 2026 年 6 月 21 日在 arXiv 發布論文 arXiv:2606.22283，全文 302 頁，系統性地記錄 Apple Neural Engine（ANE）從硬體資料路徑到使用者空間直接存取路徑的完整技術細節。涵蓋範圍橫跨 A11 至 A18 以及 M1 至 M5 全系列晶片，並在 M1 與 M5 實體裝置上進行直接量測驗證。

硬體架構：固定功能矩陣加速器的效能邊界

ANE 是一枚固定功能（fixed-function）矩陣加速器，論文詳細分析其資料路徑設計與效能天花板曲線（roofline），揭示吞吐量與能耗之間的制約關係。研究方法結合對 Apple silicon 硬體的直接量測，以及對專有執行期、編譯器、核心驅動程式與韌體組件的靜態反編譯分析。所有發現均標註為「量測所得」、「反編譯推導」或「預測」三類，維持嚴謹的可信度分層。

論文收錄 12 張圖表，呈現各代晶片在不同工作負載下的實測效能數字，是目前公開文獻中最完整的 ANE 跨代比較資料集。此前蘋果從未公開 ANE 完整規格，使第三方模型部署與效能調優長期依賴推測。

軟體堆疊：Core ML 之下的完整分派路徑

官方 Core ML 框架隱藏了 ANE 的底層細節；本論文則揭露從使用者空間到硬體的完整分派鏈，包括編譯器基礎架構、磁碟上的程式格式（on-disk program format）、核心驅動程式介面，以及韌體命令協定。

權重壓縮：記錄 ANE 原生支援的壓縮方法，說明如何在不損失精度的前提下降低記憶體頻寬需求。
韌體協定：分析驅動程式與 ANE 韌體之間的命令格式與同步機制。
使用者空間直接存取：描述一條繞過 Core ML 的可呼叫介面，作者明確標注此路徑適用於量測與研究，而非正式出貨軟體。

對在 Apple silicon 上研究 on-device LLM 推論的工程師而言，本論文首次提供可引用的跨代技術基準，填補了 ANE 公開文獻的重大空缺。

原始來源：arXiv:2606.22283 — Apple Neural Engine: Architecture, Programming, and Performance

Ornith-1.0：以自我鷹架驅動的開源代理程式編碼模型

Deep Reinforce · 2026-06-30

deepreinforce.ai 近日發布 Ornith-1.0，這是一系列以自我改進（self-improving）為核心設計的開源大型語言模型，目標場景是代理程式編碼（agentic coding）任務。Ornith-1.0 的核心差異在於模型本身參與自身的訓練資料生成與評估回圈，而非依賴人工標注或固定靜態資料集。開源釋出形式包含完整模型權重與自我改進訓練流程。

自我鷹架機制：模型即規劃器也是執行器

自我鷹架（self-scaffolding）指模型在推論階段自動建構任務分解、工具呼叫序列與驗證步驟，無需外部 Orchestrator 手動設計提示鏈。Ornith-1.0 在代理程式執行迴圈中同時扮演規劃器與工作器角色，能根據執行結果動態調整後續步驟。這種架構使模型在面對未見過的程式碼庫結構時仍能維持穩定的任務完成率。

在訓練方面，模型利用自身生成的執行軌跡（execution trajectories）作為強化學習訊號來源，透過成功與失敗軌跡的對比學習不斷精煉決策策略。此過程不依賴人工偏好標注，降低了訓練資料的取得成本，也使開源社群得以在自有資料集上重現相同流程。

開源定位與應用場景

目標應用場景涵蓋自動化程式碼修改、多檔案重構、測試生成與 CI/CD 管線整合。相較於閉源代理程式編碼系統，開源架構允許工程師在本地部署並針對特定程式碼庫進行微調，兼顧資料隱私與成本控制。deepreinforce.ai 將 Ornith-1.0 定位為系列模型的起點，後續版本將持續透過自我改進迴圈疊代提升能力。

原始來源：Deep Reinforce — Ornith-1.0: Self-Improving Open-Source Models for Agentic Coding

End of article