Flittoは2月10日、多言語AIの認識精度向上に向け、高品質なアラビア語音声データを収集するプロジェクトを開始したと発表した。
世界の大手テック企業で多言語音声データの需要が拡大していることを受け、同社は今回の取り組みを進める。
アラビア語は、標準アラビア語(MSA)に加えて30種類以上の方言がある。日常会話では複数の方言や標準語が混在する「コードスイッチング」も頻繁に見られ、AI学習用データの整備が難しい言語の一つとされる。Flittoは、自社アプリの「アーケード」機能を活用し、利用者の参加を通じて音声データを集める。
参加者が提示された文章を読み上げて録音すると、AIシステムが方言を自動で判別する。判定結果の確度が低い場合は追加の文章を提示し、追加収録を促すことでデータ精度を高める仕組みだ。
同プロジェクトでは、単なる音声収集にとどまらず、話者の話し方やイントネーション、語彙選択といった言語的な多様性を反映した学習データの構築を目指す。言語資源の偏在による学習データの偏りを抑え、実際の利用環境でより高い認識精度を実現したい考えだ。
Flittoの代表は「アラビア語は4億人以上が使う一方で、AI学習用データが不足している低資源言語だ」と指摘。そのうえで「アラビア語特有の特性を体系的に反映したデータを構築し、グローバルAIモデルの認識品質向上に貢献したい」と述べた。
著者について