OpenAI推出3款实时语音模型，覆盖对话、翻译和转写

生成中...

Chi-gyu Hwang

发布时间 2026-05-08 15:39:47

搜索关键词

据TechCrunch5月8日报道，OpenAI在Realtime API中推出3款语音模型，进一步扩展其实时对话、翻译和转写能力。

此次发布的3款模型分别为GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。其中，GPT-Realtime-2主打实时对话推理。OpenAI表示，相比上一代GPT-Realtime-1.5，该模型的推理能力已接近GPT-5水平，可处理更复杂的用户请求。

GPT-Realtime-Translate则面向实时翻译场景，可在对话过程中进行翻译，支持70多种语言输入，输出语言覆盖13种。GPT-Realtime-Whisper主要用于语音转写，可在对话进行时将语音实时转换为文本。

OpenAI表示，这批新模型正推动实时音频能力从简单问答向完整语音接口演进，可在对话过程中完成语音识别、推理、翻译和转写，并执行相应操作。

从应用场景来看，上述模型可用于客户服务、教育、媒体、活动和创作者平台等领域。OpenAI同时表示，已设置防护机制，以降低垃圾内容、诈骗等滥用风险；一旦检测到违反有害内容规范的情况，系统会通过内置机制中止对话。

目前，这3款模型均可通过OpenAI Realtime API调用。其中，GPT-Realtime-Translate和GPT-Realtime-Whisper按分钟计费，GPT-Realtime-2则按Token计费。

Chi-gyu Hwang delight@d-today.co.kr