Microsoft、音声・画像の自社製AIモデル3種を発表　低価格戦略も

Microsoftは2日（現地時間）、自社開発の音声・画像AIモデル3種を発表した。音声認識、音声生成、画像生成をカバーする構成で、価格面でもAmazonやGoogleを意識した低価格戦略を打ち出した。米メディアのVentureBeatが報じた。

発表したのは、音声文字起こしモデル「MAI-Transcribe-1」、音声生成モデル「MAI-Voice-1」、画像生成モデル「MAI-Image-2」の3モデル。いずれもMicrosoft FoundryとMAI Playgroundを通じて利用できる。

報道によると、MAI-Transcribe-1は多言語音声認識ベンチマーク「FLEURS」で、上位25言語平均の単語誤り率（WER）3.8％を記録した。OpenAIの「Whisper-large-v3」を25言語すべてで上回り、Googleの「Gemini 3.1 Flash」と比べても25言語中22言語で優位だったという。Microsoftはこのモデルを、CopilotのボイスモードとTeamsの会議文字起こし機能で試験運用している。

MAI-Voice-1は、1秒以内に60秒分の音声を生成でき、数秒の音声サンプルだけで個人の声を再現できるという。価格は100万文字当たり22ドル。

一方、MAI-Image-2はAIモデル評価プラットフォーム「Arena.ai」のリーダーボードで3位以内に入った。生成速度は前モデル比で2倍超に高まったとしている。料金はテキスト入力が100万トークン当たり5ドル、画像出力が100万トークン当たり33ドル。大手広告会社の一つであるWPPが初期の企業パートナーとして参加した。

今回のモデル開発で注目されるのは、開発チームの規模の小ささだ。MicrosoftのAI部門責任者ムスタファ・スレイマン氏は、「音声モデルは10人で開発した。速度、効率、正確性の改善の大半は、モデルアーキテクチャとデータに由来する。画像チームも10人未満だ」と述べた。

同社は価格面でも攻勢を強める。スレイマン氏は「AmazonやGoogleなどより安く設定しており、意図的な判断だ」と説明した。Microsoft株は年初来で約17％下落しており、AI投資の収益化を求める投資家の圧力が強まっている。

スレイマン氏はまた、大規模言語モデル（LLM）でも独自モデルを開発していく方針を明らかにした。「Microsoftが必要とするタイミングで、最高の効率と最低のコストで最先端モデルを提供できるようにし、完全に自立した体制を整えることが目標だ」と語った。

Chi-gyu Hwang delight@d-today.co.kr

キーワード