產業脈動 2026 年 6 月 25 日

2026-06-25 — 高通收購 Modular、OpenAI 自研推論晶片 Jalapeño、Discord ScyllaDB 自動化控制平面

primary=https://www.qualcomm.com/news/releases/2026/06/qualcomm-to-acquire-modular primary=https://www.modular.com/blog/qualcomm-to-acquire-modular primary=https://techcrunch.com/2026/06/24/openai-unveils-its-first-custom-chip-built-by-broadcom/ primary=https://discord.com/blog/how-discord-automates-scylladb-clusters-at-scale

高通收購 AI 軟體新創 Modular,打造跨硬體通用推論平台

Qualcomm 官方新聞稿 · 2026-06-24

高通(Qualcomm)於 2026 年 6 月 24 日宣布,已與 AI 軟體基礎架構新創公司 Modular 達成收購協議,交易預計於 2026 年下半年完成,仍需通過監管審查。Modular 以開源程式語言 Mojo 及推論框架 MAX 聞名,其核心主張是讓 AI 模型「一次撰寫,到處執行」,橫跨 CPU、GPU、NPU 及客製化 ASIC 等異質硬體。這項交易標誌著高通正式將軟體能力列為 AI 策略的核心支柱。

原本的問題:AI 軟體碎片化的困境

當前 AI 推論市場面臨嚴重的硬體鎖定(hardware lock-in)問題:開發者為了在不同加速器上執行相同模型,往往必須針對各家廠商的專有 SDK 重新撰寫底層核心(kernel)。NVIDIA 有 CUDA,AMD 有 ROCm,高通自家的 NPU 亦有其對應工具鏈,導致跨平台部署成本極高。

高通執行長 Cristiano Amon 在聲明中指出,產業正朝向「分散式、多供應商架構」演進,這樣的趨勢要求一個更開放、更現代的軟體基礎。邊緣裝置與資料中心之間的工作負載分配日益靈活,若每換一種硬體都需重新最佳化,商業部署速度勢必受阻。

採用的方法:MAX 框架與 Mojo 語言

Modular 的技術核心由兩個元件構成。MAX(Modular Accelerated Xecution)是一個專為生成式 AI 設計的模型服務框架,支援混合專家模型(Mixture-of-Experts, MoE)、開放權重模型等主流架構,並已在 Modular Cloud 上對外提供服務。

Mojo 則是由前 LLVM 及 Swift 語言設計者 Chris Lattner 主導開發的新程式語言,語法相容 Python 生態系,但執行效能接近 C。

  • 支援 CPU、GPU、NPU、自定義 ASIC 等多種目標硬體
  • 透過統一抽象層消除各廠商 SDK 的底層差異
  • 模型權重與推論邏輯分離,升級硬體時無需重新訓練
  • 2026 年 6 月 18 日發布的 Modular 26.4 已引入 MoE 推論支援,並推進 Mojo 1.0 開發進程

Lattner 在收購聲明中表示,加入高通能取得「規模與平台觸及範圍」,以加速讓 AI 開發對更廣泛開發者更為可及。高通則計劃將 Modular 的技術整合至其橫跨邊緣與資料中心的 AI 產品線,補強現有 SnapdragonCloud AI 系列晶片的軟體生態。

實際效果:對產業格局的影響

這項收購的時間點耐人尋味。高通在智慧手機 SoC 市場的 NPU 領導地位雖早已鞏固,但在資料中心 AI 推論市場,其影響力仍遠不及 NVIDIA。取得 Modular 後,高通有機會以軟體作為差異化入口,將自家硬體的吸引力延伸至雲端工作負載。

此外,對 NVIDIA 而言,這是一個潛在的競爭訊號:一旦有工具能讓開發者以極低成本將推論工作負載從 H100 遷移到其他平台,NVIDIA 的護城河便不再只取決於硬體效能,還需仰賴生態系黏性。Modular 已於 2026 年 6 月舉辦開發者大會 ModCon 2026,展示同一套程式碼在 NVIDIA、AMD 及其他硬體上的效能數據,此舉更直接向市場傳遞了「去鎖定」的訊號。

原始來源:Qualcomm 新聞稿Modular 官方部落格


OpenAI 發表首款自研推論晶片「Jalapeño」,與 Broadcom 合作打破 NVIDIA 單一依賴

TechCrunch · 2026-06-24

OpenAI 於 2026 年 6 月 24 日正式揭露首款自研 AI 推論晶片 Jalapeño,該晶片由 OpenAI 與半導體大廠 Broadcom 合作設計,專為推論工作負載(inference)最佳化,目前處於早期測試階段。OpenAI 總裁 Greg Brockman 表示,Jalapeño 在初步測試中展現出「優於現有最先進方案」的每瓦效能(performance-per-watt),預計部署後將大幅降低 ChatGPT 等服務的運算成本。

為何自研晶片?從 NVIDIA 依賴談起

過去數年,OpenAI 幾乎完全倚賴 NVIDIA GPU(尤其是 H100H200 系列)執行模型訓練與推論。GPU 的高採購成本與供應鏈限制成為 OpenAI 擴大服務規模的主要瓶頸,促使公司從 2025 年起積極探索自研矽晶路線。

Brockman 指出,OpenAI 內部識別出「特定工作負載被現有硬體嚴重服務不足」的情形,尤其是即時程式碼生成這類對延遲極為敏感、但計算強度不及大規模訓練的場景。這類工作負載在通用 GPU 上執行時,能耗比並不理想,是自研晶片最具說服力的切入點。

Jalapeño 的設計哲學

Jalapeño 的設計哲學體現在 OpenAI 對「全棧最佳化」的追求:從晶片架構、記憶體系統、網路層到排程系統,全部圍繞特定推論場景協同設計,而非在通用 GPU 之上疊加軟體優化。這與 Google 的 TPU(Tensor Processing Unit)及 Amazon 的 Trainium 策略如出一轍,均試圖透過垂直整合降低 AI 服務的邊際成本。

值得注意的是,OpenAI 的 AI 模型本身也參與了 Jalapeño 的晶片設計流程,用於最佳化電路佈局與核心架構決策——這一點被 OpenAI 刻意強調為「全棧 AI」理念的具體呈現。Broadcom 在此扮演的角色是晶圓廠接口與封裝設計,而非主導架構;核心工程主導權仍在 OpenAI 手中。

公司自研晶片主要用途合作夥伴
OpenAIJalapeño推論(Inference)Broadcom
GoogleTPU v5e/v5p訓練 + 推論自研
AmazonTrainium 2訓練自研
MetaMTIA推論自研

訓練仍靠 NVIDIA,推論才是主戰場

OpenAI 明確表示,大規模預訓練(pre-training)工作短期內仍將持續使用 NVIDIA 硬體,因為這類工作負載對絕對算力的需求遠超過能耗最佳化的優先級。Jalapeño 鎖定的是「模型訓練完成後」的推論階段——也就是 ChatGPT、Codex 等產品回應用戶請求時所需的算力。

這個策略有其商業邏輯:推論占 OpenAI 日常運算支出的絕大比例,服務規模越大,每次推論的成本越直接影響獲利能力。以 Jalapeño 替代部分推論 GPU 集群,哪怕只是特定工作負載,都能帶來可觀的成本節省。此外,OpenAI 與 Broadcom 的策略合作協議早於 2025 年 10 月便已公告,此次發布是正式落地成果。

原始來源:TechCrunch 報導


Discord 如何用 Rust 打造資料庫自動化控制平面,將 36 小時手動作業壓縮至 2 小時

Discord Engineering Blog · 2026-05-08

Discord 資料庫基礎架構工程師 Peter French 於 2026 年 5 月 8 日發表文章,詳述該公司如何設計並實作 Scylla Control Plane(SCP),以自動化方式管理數十個 ScyllaDB 叢集及其中數百個節點。在 SCP 上線之前,一次完整的叢集擴容或作業系統升級,往往需要工程師持續投入超過 36 小時的人工操作;如今同樣的工作僅需不到 2 小時,且多數等待時間無需人員值守。

原本的問題:自動化腳本的三大失敗模式

Discord 的 Persistence Infrastructure 團隊並非一開始就沒有自動化工具。他們曾以 Python 和 Bash 腳本拼湊出一套臨時方案,但這些腳本隨著叢集規模成長暴露出三個根本缺陷。

  • 執行順序不安全:腳本之間缺乏明確的先決條件聲明,容易在叢集狀態未就緒時就執行後續步驟
  • 中途失敗難以恢復:一旦操作在中間環節失敗,缺乏統一的狀態紀錄,難以從斷點安全繼續
  • 難以擴充:每新增一種操作類型,都需要具備深厚機構知識的工程師才能正確修改腳本邏輯

這三個問題的共同根源是缺乏一個統一的抽象層,使得各種資料庫運維操作能夠以一致、可重用的方式被定義與執行。SCP 的設計目標正是填補這個空缺。

採用的方法:Task、Workflow、Job 三層架構

SCP 採用三層架構,由下而上分別是 Task、Workflow 與 Job。Task 是最小的工作單元,分為節點層級(node task)與叢集層級(cluster task)兩類,每個 Task 必須實作三個介面:

fn name() -> String
fn preconditions() -> Vec<Condition>
fn execute() -> Result<(), Error>

冪等性(idempotency)是 Task 的強制要求——執行一次與執行兩次的結果必須相同。此外,Condition 機制允許 Task 在執行前輪詢叢集狀態,例如等待所有節點完成 compaction 後才繼續,避免在不穩定狀態下貿然操作。

第二層 Workflow 以 YAML 定義 Task 的執行序列,並透過兩個關鍵參數控制並行安全性:

  • concurrency_unit:定義並行單位(例如以可用區 Availability Zone 為單位),確保不同 AZ 的節點不會同時重啟,避免 quorum 喪失
  • concurrency_limit:限制同一時間最多允許幾個並行單位同時執行

Workflow 亦支援 template variable,讓同一份定義可在執行時帶入不同參數,無需為每個叢集維護獨立的設定檔。第三層 Job 是 Workflow 的執行實例,綁定至特定叢集,狀態持久化於本地 SQLite 資料庫中,確保即使服務中途重啟也能從中斷點繼續。

實際效果:從數十小時到無人值守

SCP 目前已自動化 Discord 資料庫團隊的多種核心運維場景:

  • 叢集擴容與新節點加入(node joining)
  • Ubuntu 作業系統滾動升級
  • 設定變更的滾動重啟(config change rolling restart)
  • ScyllaDB 版本升級(透過 shadow cluster 策略)
  • Binary cycling 與清理操作

以 OS 升級為例,原本需要工程師全程陪同操作 36 小時以上,現在 SCP 自動按 AZ 分批推進,工程師只需在出現「不可恢復錯誤(unrecoverable error)」時才需介入——SCP 會透過 webhook 主動通知,其餘時間系統完全自主運行。這個設計本身也反映了 SCP 的錯誤分類哲學:可重試的錯誤自動重試,不可恢復的錯誤才升級為人工事件。

技術實作方面,SCP 以 Rust 撰寫,選擇 Rust 除了效能考量外,更重要的是型別系統在編譯期強制錯誤分類的正確性,減少運行期因錯誤處理疏漏導致的叢集故障。SQLite 作為狀態後端則刻意避免了對外部服務的依賴,降低 SCP 本身的運維複雜度。

原始來源:Discord Engineering Blog


End of article
0
Would love your thoughts, please comment.x
()
x