据TechCrunch5月8日报道,OpenAI在Realtime API中推出3款语音模型,进一步扩展其实时对话、翻译和转写能力。
此次发布的3款模型分别为GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。其中,GPT-Realtime-2主打实时对话推理。OpenAI表示,相比上一代GPT-Realtime-1.5,该模型的推理能力已接近GPT-5水平,可处理更复杂的用户请求。
GPT-Realtime-Translate则面向实时翻译场景,可在对话过程中进行翻译,支持70多种语言输入,输出语言覆盖13种。GPT-Realtime-Whisper主要用于语音转写,可在对话进行时将语音实时转换为文本。
OpenAI表示,这批新模型正推动实时音频能力从简单问答向完整语音接口演进,可在对话过程中完成语音识别、推理、翻译和转写,并执行相应操作。
从应用场景来看,上述模型可用于客户服务、教育、媒体、活动和创作者平台等领域。OpenAI同时表示,已设置防护机制,以降低垃圾内容、诈骗等滥用风险;一旦检测到违反有害内容规范的情况,系统会通过内置机制中止对话。
目前,这3款模型均可通过OpenAI Realtime API调用。其中,GPT-Realtime-Translate和GPT-Realtime-Whisper按分钟计费,GPT-Realtime-2则按Token计费。
记者信息