2026-06-26 — HF Jobs 一鍵部署 vLLM、混合模型 Token 層級分析、iLLaDA 雙向擴散語言模型

一行指令在 HF Jobs 上部署私有 vLLM 推論服務

Hugging Face Blog · 2026-06-26

Hugging Face 於 2026 年 6 月 26 日發布教學文章，示範如何以單一 CLI 指令在雲端 GPU 上啟動私有、相容 OpenAI API 的 LLM 推論端點，並以秒計費、無需任何伺服器配置。整個服務的生命週期完全綁定工作（Job）本身，Job 結束後端點即自動消失，帳單同步停止。

核心指令與運作方式

部署只需一行指令，使用 hf jobs run 搭配 --expose 旗標開放連接埠：

hf jobs run --detach --expose 8000 --flavor a10g-small -s HF_TOKEN \
  vllm/vllm-openai \
  vllm serve LiquidAI/LFM2.5-8B-A1B --max-model-len 8192

Job 啟動後，系統自動分配格式為 https://<job_id>--8000.hf.jobs 的 HTTPS 端點。每個請求必須攜帶擁有工作命名空間讀取權限的 HF Token，以 Bearer Token 形式放在 Authorization 標頭中，確保端點不會公開暴露。前置條件包含 huggingface_hub >= 1.19.0 以及預先完成 hf auth login 認證。

伺服器啟動需要數分鐘（映像檔拉取、模型下載、模型載入），可使用 hf jobs logs -f <job_id> 追蹤進度；日誌出現 Application startup complete 即代表服務就緒。Job 預設 timeout 為 30 分鐘，可透過 --timeout 旗標延長，也可隨時用 hf jobs cancel <job_id> 主動終止。

Python 客戶端整合

由於端點完全相容 OpenAI API，現有程式碼幾乎不需要修改，只需更換 base_url 並以 HF Token 作為 api_key：

from openai import OpenAI
import os

client = OpenAI(
    base_url="https://<job_id>--8000.hf.jobs/v1",
    api_key=os.environ["HF_TOKEN"],
)

response = client.chat.completions.create(
    model="LiquidAI/LFM2.5-8B-A1B",
    messages=[{"role": "user", "content": "Write a haiku about ephemeral compute."}],
)
print(response.choices[0].message.content)

同樣的模式適用於 llama.cpp 的 llama-server 和 SGLang 等任何支援 HTTP 的 OpenAI 相容推論伺服器。使用 llama.cpp 時，可透過 -v hf://org/repo:/model:ro 掛載模型儲存庫為唯讀磁碟區，省去下載等待時間。所有伺服器都必須監聽 0.0.0.0 而非預設的 127.0.0.1，否則 Jobs 代理無法轉發流量。

進階用例：大型模型與多 GPU 張量並行

對需要多張 GPU 的大型模型，HF Jobs 支援透過 vLLM 的張量並行功能橫跨多個加速器。例如以 a10g-large 規格（配備 2 張 H200）加上 --tensor-parallel-size 2 旗標，可部署 122B 參數的 Qwen3.5 等模型。對顯存受限的情況，--max-model-len 與 --max-num-seqs 旗標可有效壓低記憶體用量，避免 OOM 錯誤。

HF Jobs 定位為臨時性推論工作負載，適合評估腳本、資料標注階段、提示詞迭代，或只需存活數小時的示範用途。若需要長期穩定端點、自動擴縮容與監控，官方建議改用 Inference Endpoints 服務；兩者的計費模式與服務生命週期有根本性差異，選用哪種方案取決於端點本身是否為最終交付產品。

原始來源：Hugging Face — Serve Models on Jobs

Transformer 與混合架構在 Token 層級的預測差異分析

arXiv:2606.20936 · 2026-06-18

Allen AI 研究員 Yanhong Li 與 William Merrill 於 2026 年 6 月 18 日提交論文，透過「損失差距（loss gap）」方法，逐 token 比較純 Transformer 與混合（Transformer + 循環層）語言模型在相同輸入下的預測機率差異。研究以 OLMo 3（7B Transformer）與 OLMo Hybrid（7B 混合模型）為基準，涵蓋散文、程式碼與標記語言三類語料，並以三個 1B 參數的匹配模型進行交叉驗證。

研究方法：逐 Token 損失差距

研究者針對相同前綴輸入，計算兩個模型對每個後續 token 的預測對數機率差，得出「損失差距」數值。正值代表混合模型預測更準確，負值則代表 Transformer 佔優。此分析框架進一步按 token 類別（自然語言標籤、複製特徵、分隔符結構）以及受控合成探針進行分層統計，讓結果從整體 perplexity 的粗粒度比較細化到具體的語言現象層級。

研究同時以三個 1B 參數的匹配模型（純 Transformer、混合模型、純 RNN）重複實驗，確認觀察到的差異確實源自架構本身，而非規模或訓練資料的偏差。

混合模型的優勢領域

混合模型在語義狀態依賴任務上表現更佳，例如代詞記憶（pronoun-memory）與實體追蹤（entity-tracking），以及段落或句子開頭的分隔符處。對於內容詞（content words），混合模型的損失差距約為 0.04，明顯高於功能詞（function words）的 0.02，顯示循環層能有效編碼語義文件狀態。

然而混合架構的優勢並非無條件成立。當下一個 token 是段落中已出現內容的重複時，混合模型的領先優勢趨近於零。這對應到循環層固定大小記憶體的本質限制——隨上下文延長，精確複製早期內容的能力會逐漸衰退。

Transformer 的優勢領域與評估方法論意涵

純 Transformer 在句法結構與精確複製任務上保持領先，包括括號配對（bracket matching）和重複 n-gram 的預測。注意力機制允許模型同時比對所有位置的 token，在需要長距離精確回憶的場景中具備天然優勢，但代價是計算成本隨序列長度呈平方增長。

研究者以此作為「過濾式評估（filtered evaluations）」方法的基礎，主張單一整體損失指標對於比較 Transformer 與混合架構過於粗糙，應依任務類型設計針對性的評估基準，才能反映各架構真實的能力邊界。這項結論對未來的預訓練診斷與評估集設計具有直接的方法論意涵。

原始來源：arXiv:2606.20936 — Which tokens does a hybrid model predict better?

iLLaDA：以全雙向擴散模型挑戰自回歸語言模型的新基準

arXiv:2606.25331 · 2026-06-24

來自中國人民大學等機構的十位研究者於 2026 年 6 月 24 日提交論文，介紹 iLLaDA——一個 8B 參數的遮罩式擴散語言模型（masked diffusion language model），預訓練與指令微調全程採用全雙向注意力機制，而非主流的因果注意力。iLLaDA 在通用推理、數學與程式碼等多項基準上大幅超越前代擴散模型 LLaDA，並在部分任務上與 Qwen2.5 7B 等自回歸基準持平。

架構設計：遮罩擴散目標與全雙向注意力

標準語言模型採用因果遮罩，每個 token 只能看到其左側上下文，這是自回歸逐步生成的基本假設。iLLaDA 改採遮罩擴散目標（masked diffusion objective），在預訓練和監督式微調全程保留雙向注意力，讓模型可同時參考序列前後文進行預測。

訓練規模方面，預訓練使用 12 兆（12T）個 token，指令微調則在 250 億（25B）token 的語料上訓練 12 個 epoch。為解決擴散模型生成效率低落的問題，研究者實作了變長生成（variable-length generation），在推論階段動態調整生成步驟，降低計算開銷。

基準測試成績

相比前代擴散語言模型 LLaDA，iLLaDA 在多項任務上取得顯著進步：

基準	模型	相較 LLaDA 提升
BBH	iLLaDA-Base	+21.6 分
ARC-Challenge	iLLaDA-Base	+14.9 分
MATH	iLLaDA-Instruct	+14.5 分
HumanEval	iLLaDA-Instruct	+16.5 分

iLLaDA-Instruct 在多個基準上與 Qwen2.5 7B 的表現相當，意味著以非自回歸方式訓練的擴散模型已能在同規模參數條件下追平主流自回歸架構，是擴散語言模型規模化研究的重要里程碑。

多選題評估的新方法與模型釋出

擴散模型在多選題任務上面臨特有的評估困難：由於生成不是逐 token 的自回歸過程，傳統對數似然評分方式需要調整。研究者為此設計了信心度評分（confidence-based scoring）機制，針對每個候選選項計算模型的預測確信程度，再比較選取最終答案。

模型權重與程式碼已透過 GitHub 公開釋出。這項工作延續了 LLaDA 開創的大規模擴散語言模型研究路線，在訓練資料量與架構優化上均有所突破，為非自回歸生成範式在實際應用場景的可行性提供了更充分的實證支持。

原始來源：arXiv:2606.25331 — Improved Large Language Diffusion Models (iLLaDA)

End of article