据The Information当地时间3月5日报道,OpenAI正在开发一款可在对话过程中实时调整回答内容的双向语音模型。
目前,ChatGPT的高级语音模式仍采用轮次式交互:用户需要先说完,模型再处理语音并生成回复。
这种模式下,用户在对话中发出的“嗯”“知道了”等简短反馈,往往会被系统识别为一次新的发言,从而打断原本的回答流程;而模型一旦开始作答,也无法根据后续插话实时修改内容。因此,其对话体验较真人交流更显生硬。
报道称,OpenAI正在研发的新模型名为“BiDi(双向)”。与现有模式不同,BiDi可在对话过程中持续接收并处理用户语音,即使中途出现插话,也能即时调整回答内容。
The Information援引知情人士的话称,在客服场景中,这一能力的作用更为明显。以退货流程为例,如果用户在办理退货时临时改为换货并打断对话,现有模型可能会中断并出现混乱;而BiDi则能够理解上下文变化,转入换货流程并继续自然对话。
报道还称,BiDi未来预计将集成至智能音箱等语音设备中,OpenAI也在评估开发智能音箱的可能性。
不过,BiDi目前仍未完成开发。知情人士表示,原型模型在持续对话数分钟后仍可能出现异常,甚至发出不自然的声线。OpenAI原计划在第一季度推出BiDi,但发布时间不排除推迟至第二季度以后。
记者信息