OpenAI GPT-Realtime-2 正式登場:全面解析下一代即時語音 AI 的革命性突破

發布日期:2026 年 5 月 10 日

2026 年 5 月 10 日9 分鐘閱讀

OpenAI 又一次在沒有盛大發表會的情況下,悄悄改變了遊戲規則。2026 年 5 月 7 日,該公司向其 API 推出了三款全新的音訊模型,而這次的影響力,絕對不像發布方式那樣低調。

這次究竟推出了什麼?

OpenAI 在其全新「語音智慧」框架下,發布了三款模型:

  • GPT-Realtime-2 — 旗艦模型,在即時語音情境中搭載 GPT-5 等級的推理能力
  • GPT-Realtime-Translate — 即時翻譯模型,支援 70 種以上輸入語言及 13 種輸出語言
  • GPT-Realtime-Whisper — 專為超低延遲即時語音轉文字而生的串流模型

簡單來說,OpenAI 把整個語音 AI 技術堆疊——語音辨識、推理、翻譯、語音合成——整合進了一個統一的 API 套件。

GPT-Realtime-2:這次的核心亮點

GPT-Realtime-2 是此次發布的重頭戲,帶來了多項實質性的進化:

  • GPT-5 等級推理能力直接內建於即時語音模型中,不再需要拼湊多個獨立元件
  • 上下文視窗從 32K 擴展至 128K tokens,讓更長、更複雜的對話不再斷線失憶
  • 即時工具調用:模型可在對話進行中存取行事曆、搜尋系統等外部工具,並以自然語言同步說明,例如「我幫你查一下行事曆」
  • 前導語(Preamble)支援:在處理請求時插入「讓我確認一下」等過渡語句,避免尷尬的沉默
  • 更強的打斷處理能力,對話轉向時能更自然地銜接
  • 改善的領域專業詞彙理解,包含醫療術語與專有名詞

在基準測試上,GPT-Realtime-2(高效版)在 Big Bench Audio 的得分比 GPT-Realtime-1.5 高出 15.2%;而 xhigh 版本在 Audio MultiChallenge 的指令遵循測試中提升了 13.8%

GPT-Realtime-Translate:即時打破語言隔閡

這款模型的潛力令人振奮。GPT-Realtime-Translate 能在說話者說話的同時進行即時翻譯——零等待、零延遲。德國電信(Deutsche Telekom)已率先在客服系統上部署,讓客戶用母語說話,模型即時翻譯整段對話。

支援 70 種以上輸入語言,這不只是矽谷的產品,而是一項全球性的基礎建設布局。

GPT-Realtime-Whisper:更快的即時語音轉文字

GPT-Realtime-Whisper 是 OpenAI 知名 Whisper 模型的串流版本,專為即時語音辨識重新打造。它不需要等一句話說完才開始轉錄,而是邊說邊轉——這對無障礙工具、即時字幕與會議軟體來說是關鍵突破。

對開發者的重大意義

在這次發布之前,打造一個語音 AI 代理需要拼湊一個脆弱的技術堆疊:

Whisper 或 Deepgram(語音辨識)→ ElevenLabs 或 Cartesia(語音合成)→ GPT-4(推理)→ 自訂打斷邏輯

這種拼湊方式帶來了延遲、不一致性與維護噩夢。OpenAI 的新套件將這一切整合進單一 API 介面。

實際應用案例成形中

  • Zillow 正在打造語音助理,可透過語音尋找房源、規避繁忙街道並安排看房
  • Priceline 正朝向全語音行程管理邁進,包含即時航班變更處理
  • Deutsche Telekom 正部署多語言客服支援

與 Google Gemini Live 相比如何?

這個比較無可避免。Google 的 Gemini Live 依然是強勁對手,尤其在回應速度與語言支援廣度上仍有優勢。但 OpenAI 的策略似乎押注在推理深度與開發者彈性,而非純粹的速度競賽。

據報導,定價策略相當具有競爭力,足以讓企業開發者重新評估技術選型。

更大的格局

OpenAI 在這次發布中提出了一個核心觀點:「語音正在成為人們使用軟體最自然的方式之一。」

這句話並不誇張。無論是開車、在機場趕路,還是單純不想打字——語音越來越成為首選介面。而 GPT-Realtime-2 所代表的,不只是一個更聰明的語音機器人,而是首次真正意義上讓語音 AI 成為一個代理人(Agent)——能夠聆聽、推理、行動,並在一個無縫的循環中回應。

拼湊式語音管線的時代正在落幕。語音原生 AI 的時代,才剛剛開始。

緊貼最新動態

隨時掌握最新新聞與更新