写真=Shutterstock

Modulateが、感情や文脈、話し手の意図を捉える音声AI「ELM」を発表した。SiliconANGLEが20日(現地時間)に報じた。

同社によると、ELMは従来の大規模言語モデル(LLM)とは異なり、音声データを階層的に解析する多層構造を採用した。テキストベースのAIが見落としやすい感情面や文脈上の情報まで捉え、より正確な音声分析が可能になるとしている。

性能面では、OpenAI、Google、DeepSeek、ElevenLabsの既存モデルと比べて精度が30%高く、運用コストも10分の1〜100分の1に抑えられるという。

ELMは、ゲーム内ボイスチャットを監視する「ToxMod」の開発で直面した課題を踏まえて設計した。ToxModは、感情や意図、文脈を踏まえて、嫌がらせやヘイトスピーチなどをリアルタイムで検知する。

キーワード

#音声AI #ELM #Modulate #ToxMod #大規模言語モデル #音声分析
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.