Alibaba旗下Qwen·Tongyi Lab发布Qwen3.5-Omni：主打实时交互的全模态模型亮相

生成中...

Yoonseo Lee

发布时间 2026-04-01 15:27:45

搜索关键词

Alibaba旗下人工智能研究团队Qwen·Tongyi Lab发布全新全模态模型Qwen3.5-Omni。该模型支持文本、图像、音频、视频理解，并具备语音生成能力。

据在线媒体Gigazine 3月31日（当地时间）报道，Qwen·Tongyi Lab表示，Qwen3.5-Omni在语音理解和视频理解等能力上超过Google Gemini 3.1 Pro。

从产品定位来看，Qwen·Tongyi Lab此次重点突出两项能力，即实时交互和长序列输入处理。Qwen3.5-Omni的最大序列长度为25.6 万，可处理最长10小时音频，或400秒、1 FPS的音视频输入。语音识别支持74 种语言，涵盖39 种中文方言以及日语、英语等；语音合成支持29 种语言，涵盖7 种中文方言以及日语、英语等。

团队同时公布了训练数据规模及模型架构信息。Qwen·Tongyi Lab称，Qwen3.5-Omni基于累计超过1亿小时的视觉与语音数据训练而成。模型采用两套混合专家架构，一套用于文本生成，另一套接收文本并输出符合上下文的语音。团队还提出“扩展”和“原生全模态AGI”两条方向，并将原生全模态设定为目标。

此次发布并非单一版本，而是推出Qwen3.5-Omni Plus、Qwen3.5-Omni Flash和Qwen3.5-Omni Light三款型号，并提供离线API和实时API接入。Qwen·Tongyi Lab表示，其中Plus版本在多项基准测试中的表现优于Gemini 3.1 Pro。

在演示环节，团队展示了视频理解和辅助开发等应用场景。其一，模型可将视频中的事件转化为文本描述；其二，用户可输入一段包含手绘设计草图、并以口述说明功能需求的视频，模型再输出相应代码流程。Qwen·Tongyi Lab将这一能力命名为“Audio-Visual Vibe Coding”。在语音合成方面，团队称，该模型还支持音色调节，并可生成高质量语音。

业界认为，此次发布意在强化Alibaba在文本、图像、音频、视频一体化处理领域的全模态AI布局。不过，产品的实际竞争力未必只取决于基准测试成绩，更取决于其长序列处理、实时交互和语音生成能力能否在实际服务场景中保持稳定表现。

Yoonseo Lee yslee@d-today.co.kr