Qwen3.5-Omni模型介绍图。(图片来源:Qwen博客)

Alibaba旗下人工智能研究团队Qwen·Tongyi Lab发布全新全模态模型Qwen3.5-Omni。该模型支持文本、图像、音频、视频理解,并具备语音生成能力。

据在线媒体Gigazine 3月31日(当地时间)报道,Qwen·Tongyi Lab表示,Qwen3.5-Omni在语音理解和视频理解等能力上超过Google Gemini 3.1 Pro。

从产品定位来看,Qwen·Tongyi Lab此次重点突出两项能力,即实时交互和长序列输入处理。Qwen3.5-Omni的最大序列长度为25.6 万,可处理最长10小时音频,或400秒、1 FPS的音视频输入。语音识别支持74 种语言,涵盖39 种中文方言以及日语、英语等;语音合成支持29 种语言,涵盖7 种中文方言以及日语、英语等。

团队同时公布了训练数据规模及模型架构信息。Qwen·Tongyi Lab称,Qwen3.5-Omni基于累计超过1亿小时的视觉与语音数据训练而成。模型采用两套混合专家架构,一套用于文本生成,另一套接收文本并输出符合上下文的语音。团队还提出“扩展”和“原生全模态AGI”两条方向,并将原生全模态设定为目标。

此次发布并非单一版本,而是推出Qwen3.5-Omni Plus、Qwen3.5-Omni Flash和Qwen3.5-Omni Light三款型号,并提供离线API和实时API接入。Qwen·Tongyi Lab表示,其中Plus版本在多项基准测试中的表现优于Gemini 3.1 Pro。

在演示环节,团队展示了视频理解和辅助开发等应用场景。其一,模型可将视频中的事件转化为文本描述;其二,用户可输入一段包含手绘设计草图、并以口述说明功能需求的视频,模型再输出相应代码流程。Qwen·Tongyi Lab将这一能力命名为“Audio-Visual Vibe Coding”。在语音合成方面,团队称,该模型还支持音色调节,并可生成高质量语音。

业界认为,此次发布意在强化Alibaba在文本、图像、音频、视频一体化处理领域的全模态AI布局。不过,产品的实际竞争力未必只取决于基准测试成绩,更取决于其长序列处理、实时交互和语音生成能力能否在实际服务场景中保持稳定表现。

关键词

#Alibaba #Qwen·Tongyi Lab #Qwen3.5-Omni #全模态模型 #实时交互 #长序列处理 #语音生成 #语音合成 #API #Google Gemini 3.1 Pro
版权所有 © DigitalToday。未经授权禁止转载或传播。