MiniCPM-o 4.5:9B 參數的全雙工實時全模態模型
arXiv cs.CL · 2026-04-30
當前多模態模型普遍採用交替感知與生成的序列流程——聽完才能回應、看完才能分析。MiniCPM-o 4.5(arXiv:2604.27393)提出 Omni-Flow 框架,將感知輸入與生成輸出對齊至同一時間軸,實現真正的全雙工互動:模型可在說話中途接收新的語音輸入,並根據持續的視覺場景主動發出提醒,而不僅僅是被動回應。
Omni-Flow 架構
傳統系統將語音辨識(ASR)、語言模型(LLM)、語音合成(TTS)分成三個獨立階段串接。Omni-Flow 用共享時間軸取代這種管線,所有模態的 token 以固定步長(chunk)對齊並行處理。在每個 chunk 邊界,模型可同時:
- 消費當前音頻 / 視頻幀的新 token
- 生成對應的語音輸出 token
- 更新對話狀態
這讓模型具備「打斷」能力——當使用者說話時,模型可立即停止輸出並切換為聆聽模式,行為接近人類對話的自然節奏。
規格與效能
模型共 9B 參數,推理記憶體需求低於 12 GB,可在邊緣裝置上執行。論文宣稱在視覺語言任務上逼近 Gemini 2.5 Flash,並超越 Qwen3-Omni-30B-A3B(後者參數量為 MiniCPM-o 4.5 的三倍以上)。場景涵蓋即時語音問答、持續視覺監控、多模態 RAG 等。
全雙工的工程挑戰
全雙工系統需要解決兩個工程問題。第一是延遲控制:每個 chunk 的處理時間必須小於 chunk 長度,否則輸出端會堆積落後。第二是語音活動偵測(VAD)整合:模型必須即時判斷使用者是否在說話,以決定是否繼續輸出。MiniCPM-o 4.5 將 VAD 信號直接編碼為特殊 token,與主幹模型共同訓練,避免外掛 VAD 帶來的額外延遲。
長度感知生成:LVM(Length Value Model)
同一時期在 arXiv 發表的 Length Value Model(2604.27039)提出了互補方向——在 token 層級對「剩餘生成長度」建模。傳統 LLM 對輸出長度幾乎沒有顯式控制,只能透過系統提示暗示。LVM 在每個 token 位置附加一個回歸頭,預測從當前位置到序列結束的剩餘步數,訓練時以 L1 損失監督。實驗在 LIFEBench 上將長度受限任務的準確率從 30.9 提升至 64.8。
兩篇論文共同指向相同的方向:LLM 推理正從「一次性生成」演進為對時間維度有感知的連續過程,無論是多模態串流還是長度預算管理。
原始來源:arXiv:2604.27393 MiniCPM-o 4.5、arXiv:2604.27039 Length Value Model
AutoSP:編譯器驅動的 LLM 長文脈訓練序列並行化
arXiv cs.LG · 2026-04-29
訓練超長文脈的 LLM 面臨一個不對稱問題:大模型的並行訓練策略(張量並行、管線並行、資料並行)已高度自動化,但長序列訓練的記憶體瓶頸卻需要工程師手動撰寫序列並行(sequence parallelism)程式碼。AutoSP(arXiv:2604.27089)由 Ahan Gupta、Zhihao Wang 等人提出,將序列並行的配置決策交給編譯器,並搭配長文脈感知的 activation checkpointing,在幾乎不損失執行時效能的條件下,將可訓練的序列長度提升至多 2.7 倍。
序列並行的核心問題
在 Transformer 的 attention 計算中,K/V 快取與 attention 矩陣的記憶體消耗均與序列長度的平方成正比。當序列長度從 4k 延伸至 128k 以上時,單 GPU 的 HBM 容量遠遠不足。現有的序列並行方案(如 Megatron-LM 的 ring attention、DeepSpeed Ulysses)需要開發者手動決定:在哪一層插入 scatter/gather、all-gather 的通訊量如何與計算重疊、activation checkpointing 要保留哪些中間張量。
AutoSP 的編譯器方法
AutoSP 在模型的計算圖層級運作。它分析每個算子的形狀資訊,自動找出可以在序列維度安全切分的位置,並插入必要的 all-gather / reduce-scatter 通訊算子。對開發者而言,只需在訓練腳本中指定目標序列長度,其餘由編譯器處理。
長文脈感知的 checkpointing 是另一項關鍵貢獻。傳統 activation checkpointing 以 layer 為粒度,會在反向傳播時重新計算整個 layer 的 activation,對長序列造成大量重算。AutoSP 改為追蹤每個 activation 張量的記憶體佔用,只 checkpoint 那些在長序列下體積最大的張量,以最小的重算代價換取最大的記憶體節省。
實驗結果
在 NVIDIA 硬體上,AutoSP 相較手寫基準可在相同 GPU 記憶體預算內訓練 2.7 倍長的序列;在 AMD 硬體上提升為 2.5 倍。執行時間的額外負擔可忽略不計(論文描述為 "negligible cost to runtime performance")。測試模型涵蓋多種 Transformer 架構,包含 dense 與 MoE 變體。