Flitto、アラビア語音声データ収集を開始　多言語AIの認識精度向上へ

生成中...

Seulgi Son

公開 2026-02-10 09:44:36

この記事を共有

Flittoは2月10日、多言語AIの認識精度向上に向け、高品質なアラビア語音声データを収集するプロジェクトを開始したと発表した。

世界の大手テック企業で多言語音声データの需要が拡大していることを受け、同社は今回の取り組みを進める。

アラビア語は、標準アラビア語（MSA）に加えて30種類以上の方言がある。日常会話では複数の方言や標準語が混在する「コードスイッチング」も頻繁に見られ、AI学習用データの整備が難しい言語の一つとされる。Flittoは、自社アプリの「アーケード」機能を活用し、利用者の参加を通じて音声データを集める。

参加者が提示された文章を読み上げて録音すると、AIシステムが方言を自動で判別する。判定結果の確度が低い場合は追加の文章を提示し、追加収録を促すことでデータ精度を高める仕組みだ。

同プロジェクトでは、単なる音声収集にとどまらず、話者の話し方やイントネーション、語彙選択といった言語的な多様性を反映した学習データの構築を目指す。言語資源の偏在による学習データの偏りを抑え、実際の利用環境でより高い認識精度を実現したい考えだ。

Flittoの代表は「アラビア語は4億人以上が使う一方で、AI学習用データが不足している低資源言語だ」と指摘。そのうえで「アラビア語特有の特性を体系的に反映したデータを構築し、グローバルAIモデルの認識品質向上に貢献したい」と述べた。

Seulgi Son sageson@d-today.co.kr

生成中...

AI要約

Flittoは、高品質なアラビア語音声データを収集するプロジェクトを始めた。方言の自動判別や追加収録の仕組みを通じ、多言語AIの認識精度向上につなげる。