OpenAI GPT-Realtime-2 正式登場：全面解析下一代即時語音 AI 的革命性突破

OpenAI 又一次在沒有盛大發表會的情況下，悄悄改變了遊戲規則。2026 年 5 月 7 日，該公司向其 API 推出了三款全新的音訊模型，而這次的影響力，絕對不像發布方式那樣低調。

這次究竟推出了什麼？

OpenAI 在其全新「語音智慧」框架下，發布了三款模型：

簡單來說，OpenAI 把整個語音 AI 技術堆疊——語音辨識、推理、翻譯、語音合成——整合進了一個統一的 API 套件。

GPT-Realtime-2 是此次發布的重頭戲，帶來了多項實質性的進化：

在基準測試上，GPT-Realtime-2（高效版）在 Big Bench Audio 的得分比 GPT-Realtime-1.5 高出 15.2%；而 xhigh 版本在 Audio MultiChallenge 的指令遵循測試中提升了 13.8%。

這款模型的潛力令人振奮。GPT-Realtime-Translate 能在說話者說話的同時進行即時翻譯——零等待、零延遲。德國電信（Deutsche Telekom）已率先在客服系統上部署，讓客戶用母語說話，模型即時翻譯整段對話。

支援 70 種以上輸入語言，這不只是矽谷的產品，而是一項全球性的基礎建設布局。

GPT-Realtime-Whisper 是 OpenAI 知名 Whisper 模型的串流版本，專為即時語音辨識重新打造。它不需要等一句話說完才開始轉錄，而是邊說邊轉——這對無障礙工具、即時字幕與會議軟體來說是關鍵突破。

在這次發布之前，打造一個語音 AI 代理需要拼湊一個脆弱的技術堆疊：

Whisper 或 Deepgram（語音辨識）→ ElevenLabs 或 Cartesia（語音合成）→ GPT-4（推理）→ 自訂打斷邏輯

這種拼湊方式帶來了延遲、不一致性與維護噩夢。OpenAI 的新套件將這一切整合進單一 API 介面。

這個比較無可避免。Google 的 Gemini Live 依然是強勁對手，尤其在回應速度與語言支援廣度上仍有優勢。但 OpenAI 的策略似乎押注在推理深度與開發者彈性，而非純粹的速度競賽。

據報導，定價策略相當具有競爭力，足以讓企業開發者重新評估技術選型。

OpenAI 在這次發布中提出了一個核心觀點：「語音正在成為人們使用軟體最自然的方式之一。」

這句話並不誇張。無論是開車、在機場趕路，還是單純不想打字——語音越來越成為首選介面。而 GPT-Realtime-2 所代表的，不只是一個更聰明的語音機器人，而是首次真正意義上讓語音 AI 成為一個代理人（Agent）——能夠聆聽、推理、行動，並在一個無縫的循環中回應。

拼湊式語音管線的時代正在落幕。語音原生 AI 的時代，才剛剛開始。