2026-05-04 — MiniCPM-o 4.5 全雙工、AutoSP 序列並行、LVM 長度感知生成

MiniCPM-o 4.5：9B 參數的全雙工實時全模態模型

arXiv cs.CL · 2026-04-30

當前多模態模型普遍採用交替感知與生成的序列流程——聽完才能回應、看完才能分析。MiniCPM-o 4.5（arXiv:2604.27393）提出 Omni-Flow 框架，將感知輸入與生成輸出對齊至同一時間軸，實現真正的全雙工互動：模型可在說話中途接收新的語音輸入，並根據持續的視覺場景主動發出提醒，而不僅僅是被動回應。

Omni-Flow 架構

傳統系統將語音辨識（ASR）、語言模型（LLM）、語音合成（TTS）分成三個獨立階段串接。Omni-Flow 用共享時間軸取代這種管線，所有模態的 token 以固定步長（chunk）對齊並行處理。在每個 chunk 邊界，模型可同時：

消費當前音頻 / 視頻幀的新 token
生成對應的語音輸出 token
更新對話狀態

這讓模型具備「打斷」能力——當使用者說話時，模型可立即停止輸出並切換為聆聽模式，行為接近人類對話的自然節奏。

規格與效能

模型共 9B 參數，推理記憶體需求低於 12 GB，可在邊緣裝置上執行。論文宣稱在視覺語言任務上逼近 Gemini 2.5 Flash，並超越 Qwen3-Omni-30B-A3B（後者參數量為 MiniCPM-o 4.5 的三倍以上）。場景涵蓋即時語音問答、持續視覺監控、多模態 RAG 等。

全雙工的工程挑戰

全雙工系統需要解決兩個工程問題。第一是延遲控制：每個 chunk 的處理時間必須小於 chunk 長度，否則輸出端會堆積落後。第二是語音活動偵測（VAD）整合：模型必須即時判斷使用者是否在說話，以決定是否繼續輸出。MiniCPM-o 4.5 將 VAD 信號直接編碼為特殊 token，與主幹模型共同訓練，避免外掛 VAD 帶來的額外延遲。

長度感知生成：LVM（Length Value Model）

同一時期在 arXiv 發表的 Length Value Model（2604.27039）提出了互補方向——在 token 層級對「剩餘生成長度」建模。傳統 LLM 對輸出長度幾乎沒有顯式控制，只能透過系統提示暗示。LVM 在每個 token 位置附加一個回歸頭，預測從當前位置到序列結束的剩餘步數，訓練時以 L1 損失監督。實驗在 LIFEBench 上將長度受限任務的準確率從 30.9 提升至 64.8。

兩篇論文共同指向相同的方向：LLM 推理正從「一次性生成」演進為對時間維度有感知的連續過程，無論是多模態串流還是長度預算管理。

原始來源：arXiv:2604.27393 MiniCPM-o 4.5、arXiv:2604.27039 Length Value Model

AutoSP：編譯器驅動的 LLM 長文脈訓練序列並行化

arXiv cs.LG · 2026-04-29

訓練超長文脈的 LLM 面臨一個不對稱問題：大模型的並行訓練策略（張量並行、管線並行、資料並行）已高度自動化，但長序列訓練的記憶體瓶頸卻需要工程師手動撰寫序列並行（sequence parallelism）程式碼。AutoSP（arXiv:2604.27089）由 Ahan Gupta、Zhihao Wang 等人提出，將序列並行的配置決策交給編譯器，並搭配長文脈感知的 activation checkpointing，在幾乎不損失執行時效能的條件下，將可訓練的序列長度提升至多 2.7 倍。

序列並行的核心問題

在 Transformer 的 attention 計算中，K/V 快取與 attention 矩陣的記憶體消耗均與序列長度的平方成正比。當序列長度從 4k 延伸至 128k 以上時，單 GPU 的 HBM 容量遠遠不足。現有的序列並行方案（如 Megatron-LM 的 ring attention、DeepSpeed Ulysses）需要開發者手動決定：在哪一層插入 scatter/gather、all-gather 的通訊量如何與計算重疊、activation checkpointing 要保留哪些中間張量。

AutoSP 的編譯器方法

AutoSP 在模型的計算圖層級運作。它分析每個算子的形狀資訊，自動找出可以在序列維度安全切分的位置，並插入必要的 all-gather / reduce-scatter 通訊算子。對開發者而言，只需在訓練腳本中指定目標序列長度，其餘由編譯器處理。

長文脈感知的 checkpointing 是另一項關鍵貢獻。傳統 activation checkpointing 以 layer 為粒度，會在反向傳播時重新計算整個 layer 的 activation，對長序列造成大量重算。AutoSP 改為追蹤每個 activation 張量的記憶體佔用，只 checkpoint 那些在長序列下體積最大的張量，以最小的重算代價換取最大的記憶體節省。

實驗結果

在 NVIDIA 硬體上，AutoSP 相較手寫基準可在相同 GPU 記憶體預算內訓練 2.7 倍長的序列；在 AMD 硬體上提升為 2.5 倍。執行時間的額外負擔可忽略不計（論文描述為 "negligible cost to runtime performance"）。測試模型涵蓋多種 Transformer 架構，包含 dense 與 MoE 變體。

原始來源：arXiv:2604.27089 AutoSP

End of article