NVIDIA 200 億美元的豪賭:Groq 3 LPX 如何重塑 AI 推理的未來

這筆十年一遇的 AI 基礎設施交易背後的矽晶故事——以及為何異構推理已成主戰場。

2026 年 3 月13 分鐘閱讀

震驚矽谷的交易

2025 年 12 月底,NVIDIA 以約 200 億美元「人才收購(acquihire)」的方式,將 AI 推理新創 Groq 的主力工程團隊與 LPU(語言處理單元)資料流引擎相關技術授權納入麾下。這並非傳統意義上曠日費時的整併敘事,也較能避開部分反壟斷敘事的拖磨;整體步調快、切口準,且帶著難以掩飾的急迫感。

此後數月,NVIDIA 在公開場合對「為什麼」著墨不多。直到 2026 年聖荷西 GTC,局面改觀。Jensen Huang 發表了NVIDIA Groq 3 LPX——明顯承繼該筆交易的第一條產品線——並將其定位為 NVIDIA Vera Rubin 平台上的一等公民。「為什麼是 Groq?」開始更像一道架構題,而不只是財經標題。

Groq 是誰?LPU 又是什麼?

Jonathan Ross 曾參與 Google 第一代 TPU 的成形,創辦 Groq 時目標極其單純:打造以延遲與可預測性取勝的推理晶片,而非沿用 GPU 思維硬解。成果即 LPU(語言處理單元)——完全排程、確定性執行的處理器,核心賭注是將大量 片上 SRAM 緊貼模型權重所在,削弱長期困擾 GPU LLM 服務的記憶體頻寬瓶頸。

生成式 AI 放量後,這套架構在測試與客戶場景中一再被驗證為「真的快」。其他廠商同樣探索高 SRAM 或晶圓級路線;從 NVIDIA 的視角看,一批推理新創正在與資料中心 GPU 爭奪同一筆營運預算。收購 Groq 可解讀為:把最具威脅性的另類堆疊收編進自家路線圖,而不是讓它在 CUDA 生態旁邊獨立長大。

Groq 3 LPX:從 200 億美元交易中誕生

Groq 3 LPX(內部代號 LP30)是 LPU 第三代架構,現由與 NVIDIA 共同設計,並以 三星 4 奈米 製程生產。NVIDIA 在 GTC 2026 釋出的訊息指向 2026 年下半年開始供貨,第三季 為最可能時點。

在機架規模,官方敘事圍繞每架 256 顆互連的 Groq 3 LPU 加速器,以及針對 I/O 受限推理工作負載的一組關鍵數字:

  • 每秒 40 PB 級片上 SRAM 頻寬,目標是讓運算管線較少被記憶體停頓綁死。
  • 透過高基數互連,機架級晶片間通訊約每秒 640 TB
  • 確定性、由編譯器協調的執行,降低動態排程抖動與難以預測的尾延遲尖峰。
  • NVIDIA 將 LPX 定位為在相關解碼密集切片上,相較純 GPU 推理可達 每百萬瓦推理吞吐量最高約 35 倍的量級,並放大兆級參數模型服務的商業空間。

架構論點並非否定 GPU——大規模平行訓練、預填充與注意力密集階段仍是 GPU 強項。重點在於 自回歸解碼(decode) 的工作形狀不同:更序列、對併發下的尾延遲更敏感。LPU 針對這一段優化,追求較易預測的時序;大型 GPU 叢集要在同等營運簡潔度下保證同樣的尾延遲曲線,歷來較難。

異構傑作:LPX 與 Vera Rubin

NVIDIA 的主張不是機箱旁掛一塊輔助卡,而是把兩套系統 共同設計成統一的異構推理引擎,讓每類處理器只做自己最擅長的階段。

工作負載硬體
模型訓練Vera Rubin NVL72(Rubin GPU)
預填充與注意力Vera Rubin NVL72(Rubin GPU)
長上下文處理Vera Rubin NVL72(Rubin GPU)
低延遲 FFN/MoE 解碼Groq 3 LPX(LPU)
高階即時 token 生成Groq 3 LPX(LPU)

黏合層是 NVIDIA Dynamo:即時分類請求,把預填充與注意力導向 Rubin GPU,把對延遲敏感的解碼導向 LPU——即 NVIDIA 所稱的 AFD(注意力—前饋網路解耦)迴圈

GTC 2026 上,NVIDIA 高層強調將 LPU/LPX 與 Rubin 整合以優化解碼,是接下來推向市場的主軸之一,而非邊緣實驗。同步地,先前曾預告、面向推理的單片低成本 GPU 變體 Rubin CPX 路線已讓位給以 LPX 為中心的方案。

願景:思維速度的運算

產品敘事不限於「聊天更快」。LPX 被框在 代理式 AI(agentic AI):能持續規劃、呼叫工具、反覆迭代;人類可感知的停頓會直接傷害信任。

當生成速度逼近 每用戶每秒約千級 token,互動模式會從輪流對話轉向更接近即時思考的夥伴。這也讓 多代理協作 更可行——派生子代理、交叉驗證推理、在毫秒級收斂,而非以秒計。

Huang 亦從產品組合角度提到,低延遲、高溢價的 token 生成 可能佔 AI 叢集運算量約 四分之一——這是一塊高毛利切片,NVIDIA 打算以 LPX 級硬體牢牢抓住。

為何對 NVIDIA 近乎生死攸關

若把 Groq 交易視為奢侈收購,會誤讀局勢。NVIDIA 最深的護城河長年築在 訓練——巨量平行運算的資料中心支出。產業同時進入 推理時代:延遲、每 token 成本與服務經濟主宰損益。

訓練推理
核心優先原始吞吐量低延遲
工作形狀平行批次序列、即時解碼
記憶體模式HBM 頻寬片上 SRAM
常見最佳解GPU(NVIDIA)LPU/專用加速器

若 Groq 保持獨立並在企業推理市場持續擴張,等於從側翼啃食一個快速成長、與 CUDA 正面決鬥無關的區塊。收購 Groq 既收斂該向量,也把官方敘事中「最強解碼專用結構」併入同一參考架構——與 Vera Rubin 綁成一套完整故事。

結語

Groq 3 LPX 最宜讀成策略轉向的硬體化身:即便是 AI 訓練平台的預設選項,也願意用一筆震撼市場的交易,補上推理敘事的缺口。

對企業與開發者而言,實務含義是 一體適用的 GPU 推理 正讓位給 異構系統——專用矽做專屬階段,由懂請求類型與 SLO 的軟體調度。競爭重點愈來愈少是「單顆晶片誰最大」,而是誰能交付最連貫的 全堆疊方案。Vera Rubin 加上 Groq LPX 同一張路線圖,等於要市場用更寬的評分卡來打分。

正在規劃推理或代理式 AI 基礎建設?

我們協助團隊在模型服務、硬體選型與整合上做出決策——從異構資料中心設計到產品路線。歡迎與我們討論策略與落地。