NVIDIA 200 億美元的豪賭：Groq 3 LPX 如何重塑 AI 推理的未來

震驚矽谷的交易

2025 年 12 月底，NVIDIA 以約 200 億美元「人才收購（acquihire）」的方式，將 AI 推理新創 Groq 的主力工程團隊與 LPU（語言處理單元）資料流引擎相關技術授權納入麾下。這並非傳統意義上曠日費時的整併敘事，也較能避開部分反壟斷敘事的拖磨；整體步調快、切口準，且帶著難以掩飾的急迫感。

此後數月，NVIDIA 在公開場合對「為什麼」著墨不多。直到 2026 年聖荷西 GTC，局面改觀。Jensen Huang 發表了NVIDIA Groq 3 LPX——明顯承繼該筆交易的第一條產品線——並將其定位為 NVIDIA Vera Rubin 平台上的一等公民。「為什麼是 Groq？」開始更像一道架構題，而不只是財經標題。

Groq 是誰？LPU 又是什麼？

Jonathan Ross 曾參與 Google 第一代 TPU 的成形，創辦 Groq 時目標極其單純：打造以延遲與可預測性取勝的推理晶片，而非沿用 GPU 思維硬解。成果即 LPU（語言處理單元）——完全排程、確定性執行的處理器，核心賭注是將大量 片上 SRAM 緊貼模型權重所在，削弱長期困擾 GPU LLM 服務的記憶體頻寬瓶頸。

生成式 AI 放量後，這套架構在測試與客戶場景中一再被驗證為「真的快」。其他廠商同樣探索高 SRAM 或晶圓級路線；從 NVIDIA 的視角看，一批推理新創正在與資料中心 GPU 爭奪同一筆營運預算。收購 Groq 可解讀為：把最具威脅性的另類堆疊收編進自家路線圖，而不是讓它在 CUDA 生態旁邊獨立長大。

Groq 3 LPX：從 200 億美元交易中誕生

Groq 3 LPX（內部代號 LP30）是 LPU 第三代架構，現由與 NVIDIA 共同設計，並以 三星 4 奈米 製程生產。NVIDIA 在 GTC 2026 釋出的訊息指向 2026 年下半年開始供貨，第三季 為最可能時點。

在機架規模，官方敘事圍繞每架 256 顆互連的 Groq 3 LPU 加速器，以及針對 I/O 受限推理工作負載的一組關鍵數字：

每秒 40 PB 級片上 SRAM 頻寬，目標是讓運算管線較少被記憶體停頓綁死。
透過高基數互連，機架級晶片間通訊約每秒 640 TB。
確定性、由編譯器協調的執行，降低動態排程抖動與難以預測的尾延遲尖峰。
NVIDIA 將 LPX 定位為在相關解碼密集切片上，相較純 GPU 推理可達 每百萬瓦推理吞吐量最高約 35 倍的量級，並放大兆級參數模型服務的商業空間。

架構論點並非否定 GPU——大規模平行訓練、預填充與注意力密集階段仍是 GPU 強項。重點在於 自回歸解碼（decode） 的工作形狀不同：更序列、對併發下的尾延遲更敏感。LPU 針對這一段優化，追求較易預測的時序；大型 GPU 叢集要在同等營運簡潔度下保證同樣的尾延遲曲線，歷來較難。

異構傑作：LPX 與 Vera Rubin

NVIDIA 的主張不是機箱旁掛一塊輔助卡，而是把兩套系統 共同設計成統一的異構推理引擎，讓每類處理器只做自己最擅長的階段。

工作負載	硬體
模型訓練	Vera Rubin NVL72（Rubin GPU）
預填充與注意力	Vera Rubin NVL72（Rubin GPU）
長上下文處理	Vera Rubin NVL72（Rubin GPU）
低延遲 FFN／MoE 解碼	Groq 3 LPX（LPU）
高階即時 token 生成	Groq 3 LPX（LPU）

黏合層是 NVIDIA Dynamo：即時分類請求，把預填充與注意力導向 Rubin GPU，把對延遲敏感的解碼導向 LPU——即 NVIDIA 所稱的 AFD（注意力—前饋網路解耦）迴圈。

GTC 2026 上，NVIDIA 高層強調將 LPU／LPX 與 Rubin 整合以優化解碼，是接下來推向市場的主軸之一，而非邊緣實驗。同步地，先前曾預告、面向推理的單片低成本 GPU 變體 Rubin CPX 路線已讓位給以 LPX 為中心的方案。

願景：思維速度的運算

產品敘事不限於「聊天更快」。LPX 被框在 代理式 AI（agentic AI）：能持續規劃、呼叫工具、反覆迭代；人類可感知的停頓會直接傷害信任。

當生成速度逼近 每用戶每秒約千級 token，互動模式會從輪流對話轉向更接近即時思考的夥伴。這也讓 多代理協作 更可行——派生子代理、交叉驗證推理、在毫秒級收斂，而非以秒計。

Huang 亦從產品組合角度提到，低延遲、高溢價的 token 生成 可能佔 AI 叢集運算量約 四分之一——這是一塊高毛利切片，NVIDIA 打算以 LPX 級硬體牢牢抓住。

為何對 NVIDIA 近乎生死攸關

若把 Groq 交易視為奢侈收購，會誤讀局勢。NVIDIA 最深的護城河長年築在訓練——巨量平行運算的資料中心支出。產業同時進入 推理時代：延遲、每 token 成本與服務經濟主宰損益。

	訓練	推理
核心優先	原始吞吐量	低延遲
工作形狀	平行批次	序列、即時解碼
記憶體模式	HBM 頻寬	片上 SRAM
常見最佳解	GPU（NVIDIA）	LPU／專用加速器

若 Groq 保持獨立並在企業推理市場持續擴張，等於從側翼啃食一個快速成長、與 CUDA 正面決鬥無關的區塊。收購 Groq 既收斂該向量，也把官方敘事中「最強解碼專用結構」併入同一參考架構——與 Vera Rubin 綁成一套完整故事。

結語

Groq 3 LPX 最宜讀成策略轉向的硬體化身：即便是 AI 訓練平台的預設選項，也願意用一筆震撼市場的交易，補上推理敘事的缺口。

對企業與開發者而言，實務含義是 一體適用的 GPU 推理 正讓位給 異構系統——專用矽做專屬階段，由懂請求類型與 SLO 的軟體調度。競爭重點愈來愈少是「單顆晶片誰最大」，而是誰能交付最連貫的 全堆疊方案。Vera Rubin 加上 Groq LPX 同一張路線圖，等於要市場用更寬的評分卡來打分。

正在規劃推理或代理式 AI 基礎建設？

我們協助團隊在模型服務、硬體選型與整合上做出決策——從異構資料中心設計到產品路線。歡迎與我們討論策略與落地。