NVIDIA 200 億美元的豪賭:Groq 3 LPX 如何重塑 AI 推理的未來
這筆十年一遇的 AI 基礎設施交易背後的矽晶故事——以及為何異構推理已成主戰場。

震驚矽谷的交易
2025 年 12 月底,NVIDIA 以約 200 億美元「人才收購(acquihire)」的方式,將 AI 推理新創 Groq 的主力工程團隊與 LPU(語言處理單元)資料流引擎相關技術授權納入麾下。這並非傳統意義上曠日費時的整併敘事,也較能避開部分反壟斷敘事的拖磨;整體步調快、切口準,且帶著難以掩飾的急迫感。
此後數月,NVIDIA 在公開場合對「為什麼」著墨不多。直到 2026 年聖荷西 GTC,局面改觀。Jensen Huang 發表了NVIDIA Groq 3 LPX——明顯承繼該筆交易的第一條產品線——並將其定位為 NVIDIA Vera Rubin 平台上的一等公民。「為什麼是 Groq?」開始更像一道架構題,而不只是財經標題。
Groq 是誰?LPU 又是什麼?
Jonathan Ross 曾參與 Google 第一代 TPU 的成形,創辦 Groq 時目標極其單純:打造以延遲與可預測性取勝的推理晶片,而非沿用 GPU 思維硬解。成果即 LPU(語言處理單元)——完全排程、確定性執行的處理器,核心賭注是將大量 片上 SRAM 緊貼模型權重所在,削弱長期困擾 GPU LLM 服務的記憶體頻寬瓶頸。
生成式 AI 放量後,這套架構在測試與客戶場景中一再被驗證為「真的快」。其他廠商同樣探索高 SRAM 或晶圓級路線;從 NVIDIA 的視角看,一批推理新創正在與資料中心 GPU 爭奪同一筆營運預算。收購 Groq 可解讀為:把最具威脅性的另類堆疊收編進自家路線圖,而不是讓它在 CUDA 生態旁邊獨立長大。
Groq 3 LPX:從 200 億美元交易中誕生
Groq 3 LPX(內部代號 LP30)是 LPU 第三代架構,現由與 NVIDIA 共同設計,並以 三星 4 奈米 製程生產。NVIDIA 在 GTC 2026 釋出的訊息指向 2026 年下半年開始供貨,第三季 為最可能時點。
在機架規模,官方敘事圍繞每架 256 顆互連的 Groq 3 LPU 加速器,以及針對 I/O 受限推理工作負載的一組關鍵數字:
- 每秒 40 PB 級片上 SRAM 頻寬,目標是讓運算管線較少被記憶體停頓綁死。
- 透過高基數互連,機架級晶片間通訊約每秒 640 TB。
- 確定性、由編譯器協調的執行,降低動態排程抖動與難以預測的尾延遲尖峰。
- NVIDIA 將 LPX 定位為在相關解碼密集切片上,相較純 GPU 推理可達 每百萬瓦推理吞吐量最高約 35 倍的量級,並放大兆級參數模型服務的商業空間。
架構論點並非否定 GPU——大規模平行訓練、預填充與注意力密集階段仍是 GPU 強項。重點在於 自回歸解碼(decode) 的工作形狀不同:更序列、對併發下的尾延遲更敏感。LPU 針對這一段優化,追求較易預測的時序;大型 GPU 叢集要在同等營運簡潔度下保證同樣的尾延遲曲線,歷來較難。
異構傑作:LPX 與 Vera Rubin
NVIDIA 的主張不是機箱旁掛一塊輔助卡,而是把兩套系統 共同設計成統一的異構推理引擎,讓每類處理器只做自己最擅長的階段。
| 工作負載 | 硬體 |
|---|---|
| 模型訓練 | Vera Rubin NVL72(Rubin GPU) |
| 預填充與注意力 | Vera Rubin NVL72(Rubin GPU) |
| 長上下文處理 | Vera Rubin NVL72(Rubin GPU) |
| 低延遲 FFN/MoE 解碼 | Groq 3 LPX(LPU) |
| 高階即時 token 生成 | Groq 3 LPX(LPU) |
黏合層是 NVIDIA Dynamo:即時分類請求,把預填充與注意力導向 Rubin GPU,把對延遲敏感的解碼導向 LPU——即 NVIDIA 所稱的 AFD(注意力—前饋網路解耦)迴圈。
GTC 2026 上,NVIDIA 高層強調將 LPU/LPX 與 Rubin 整合以優化解碼,是接下來推向市場的主軸之一,而非邊緣實驗。同步地,先前曾預告、面向推理的單片低成本 GPU 變體 Rubin CPX 路線已讓位給以 LPX 為中心的方案。
願景:思維速度的運算
產品敘事不限於「聊天更快」。LPX 被框在 代理式 AI(agentic AI):能持續規劃、呼叫工具、反覆迭代;人類可感知的停頓會直接傷害信任。
當生成速度逼近 每用戶每秒約千級 token,互動模式會從輪流對話轉向更接近即時思考的夥伴。這也讓 多代理協作 更可行——派生子代理、交叉驗證推理、在毫秒級收斂,而非以秒計。
Huang 亦從產品組合角度提到,低延遲、高溢價的 token 生成 可能佔 AI 叢集運算量約 四分之一——這是一塊高毛利切片,NVIDIA 打算以 LPX 級硬體牢牢抓住。
為何對 NVIDIA 近乎生死攸關
若把 Groq 交易視為奢侈收購,會誤讀局勢。NVIDIA 最深的護城河長年築在 訓練——巨量平行運算的資料中心支出。產業同時進入 推理時代:延遲、每 token 成本與服務經濟主宰損益。
| 訓練 | 推理 | |
|---|---|---|
| 核心優先 | 原始吞吐量 | 低延遲 |
| 工作形狀 | 平行批次 | 序列、即時解碼 |
| 記憶體模式 | HBM 頻寬 | 片上 SRAM |
| 常見最佳解 | GPU(NVIDIA) | LPU/專用加速器 |
若 Groq 保持獨立並在企業推理市場持續擴張,等於從側翼啃食一個快速成長、與 CUDA 正面決鬥無關的區塊。收購 Groq 既收斂該向量,也把官方敘事中「最強解碼專用結構」併入同一參考架構——與 Vera Rubin 綁成一套完整故事。
結語
Groq 3 LPX 最宜讀成策略轉向的硬體化身:即便是 AI 訓練平台的預設選項,也願意用一筆震撼市場的交易,補上推理敘事的缺口。
對企業與開發者而言,實務含義是 一體適用的 GPU 推理 正讓位給 異構系統——專用矽做專屬階段,由懂請求類型與 SLO 的軟體調度。競爭重點愈來愈少是「單顆晶片誰最大」,而是誰能交付最連貫的 全堆疊方案。Vera Rubin 加上 Groq LPX 同一張路線圖,等於要市場用更寬的評分卡來打分。
正在規劃推理或代理式 AI 基礎建設?
我們協助團隊在模型服務、硬體選型與整合上做出決策——從異構資料中心設計到產品路線。歡迎與我們討論策略與落地。