由前OpenAI CTO Mira Murati创立的AI初创公司Thinking Machines于当地时间11日发布实时多模态AI模型“Interaction Model”预览版。该公司将这款模型定位为面向实时交互场景的研究预览。
Thinking Machines表示,当前不少AI模型仍采用传统的“轮次(turn)”交互方式,即在用户完整输入后再生成回复。在这种模式下,模型生成答案时无法继续接收新的输入,用户也难以保持连贯、持续的互动体验。
与此不同,“Interaction Model”从设计之初就围绕实时响应展开。根据公司介绍,该模型采用多流与微轮次机制,能够并行处理音频、视频和文本,并在交互过程中同步完成思考、回复和执行操作。
公司称,“Interaction Model”可以自动判断用户是在说话、思考,还是在等待回复,不依赖额外的对话管理模块,也能让对话自然延续。即便用户尚未说完,模型也可结合上下文适时介入;用户与模型也可同时发声,可用于实时翻译等场景。
此外,该模型还能在对话过程中并行完成网页搜索、浏览和UI生成,并将相关结果自然融入对话之中。
Thinking Machines强调,不同于依赖外部组件拼接交互能力的传统方式,公司将交互能力直接作为模型的一部分进行构建。随着模型能力提升,其协作能力也将同步增强。
记者信息