画像=Qwenブログより

Alibaba傘下のAI研究チーム、Qwen・Tongyi Labは、テキスト、画像、音声、映像を統合的に処理するオムニモーダルモデル「Qwen3.5-Omni」を公開した。最大10時間の音声入力やリアルタイム応答に対応し、オフラインAPIとリアルタイムAPIを通じて提供する。

3月31日付のGizmodoによると、Qwen・Tongyi Labは、同モデルの音声・映像理解性能がGoogleの「Gemini 3.1 Pro」を上回ると発表した。

Qwen3.5-Omniの特徴は、リアルタイム性と長時間入力への対応にある。最大シーケンス長は25万6000で、最大10時間分の音声、または1fps換算で最大400秒分の音声・映像データを入力できる。

音声認識は中国語の39方言に加え、日本語や英語を含む74言語に対応する。音声合成は中国語7方言のほか、日本語や英語など計29言語をサポートする。

Qwen・Tongyi Labはあわせて、学習データとモデル構造の概要も明らかにした。Qwen3.5-Omniは、合計1億時間超の視覚・音声データで学習したという。

内部構造では、2つのMixture of Experts(MoE)を組み合わせた方式を採用した。一方のモデルが生成したテキストをもう一方が受け取り、文脈に沿った音声を出力する仕組みとしている。

今後の方向性としては「拡張」と「ネイティブ・オムニモーダルAGI」を掲げ、ネイティブなオムニモーダルAIの実現を目標に据えた。

モデルは「Qwen3.5-Omni Plus」「Qwen3.5-Omni Flash」「Qwen3.5-Omni Light」の3種類を用意した。Qwen・Tongyi Labは、このうちPlusが複数のベンチマークでGemini 3.1 Proを上回ったとしている。

デモでは、映像理解と開発支援の活用例も示した。映像内の出来事をテキストで説明する視聴覚認識デモに加え、手描きの設計図と、実装したい機能を音声で説明する動画を入力し、コードを生成する流れも公開した。

Qwen・Tongyi Labはこの機能を「Audio-Visual Vibe Coding」と呼んでいる。音声合成では、声のトーンを調整しながら高品質な音声を生成できるとしている。

今回の発表は、テキスト、画像、音声、映像を横断して扱うオムニモーダルAIの開発競争で、Alibabaが存在感を高める狙いを示したものといえる。

一方、実際の競争力はベンチマーク結果だけでは決まらない。長時間入力処理やリアルタイム応答、音声生成の品質を、実運用環境でどこまで安定して提供できるかが焦点になりそうだ。

キーワード

#Alibaba #Qwen #Qwen3.5-Omni #オムニモーダルAI #AI #リアルタイム応答 #音声認識 #音声合成 #API #Audio-Visual Vibe Coding
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.