OpenAI据悉开发可实时调整回答的双向语音模型，或用于智能音箱

生成中...

Chi-gyu Hwang

发布时间 2026-03-06 16:17:50

搜索关键词

据The Information当地时间3月5日报道，OpenAI正在开发一款可在对话过程中实时调整回答内容的双向语音模型。

目前，ChatGPT的高级语音模式仍采用轮次式交互：用户需要先说完，模型再处理语音并生成回复。

这种模式下，用户在对话中发出的“嗯”“知道了”等简短反馈，往往会被系统识别为一次新的发言，从而打断原本的回答流程；而模型一旦开始作答，也无法根据后续插话实时修改内容。因此，其对话体验较真人交流更显生硬。

报道称，OpenAI正在研发的新模型名为“BiDi（双向）”。与现有模式不同，BiDi可在对话过程中持续接收并处理用户语音，即使中途出现插话，也能即时调整回答内容。

The Information援引知情人士的话称，在客服场景中，这一能力的作用更为明显。以退货流程为例，如果用户在办理退货时临时改为换货并打断对话，现有模型可能会中断并出现混乱；而BiDi则能够理解上下文变化，转入换货流程并继续自然对话。

报道还称，BiDi未来预计将集成至智能音箱等语音设备中，OpenAI也在评估开发智能音箱的可能性。

不过，BiDi目前仍未完成开发。知情人士表示，原型模型在持续对话数分钟后仍可能出现异常，甚至发出不自然的声线。OpenAI原计划在第一季度推出BiDi，但发布时间不排除推迟至第二季度以后。

Chi-gyu Hwang delight@d-today.co.kr