フランスのAI企業Mistralが、オープンソースの音声合成モデル「Voxtral TTS」を公開した。音声AIアシスタントや顧客対応用途での活用を想定しており、米メディアTechCrunchが26日(現地時間)に報じた。
競合先としては、ElevenLabs、Deepgram、OpenAIなどが挙がる。
Voxtral TTSは、英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語の9言語に対応する。
Mistralの副社長ピエール・ストック氏は、顧客ニーズを踏まえ、スマートウォッチやスマートフォン、ノートPCなどのエッジデバイスでも動作する小型の音声モデルを開発したと説明した。そのうえで、既存モデルより低コストで高性能を実現したとした。
Voxtral TTSは、5秒未満の音声サンプルからでもカスタム音声を生成できる。イントネーションやアクセント、発音の違いも反映可能で、言語を切り替えても声質を維持できるという。Mistralは、吹き替えやリアルタイム翻訳での活用も見込めるとしている。
同社は、ロボットのような声ではなく、人間らしい自然な音声を目指して開発したと強調した。
著者について