Modulateが、感情や文脈、話し手の意図を捉える音声AI「ELM」を発表した。SiliconANGLEが20日(現地時間)に報じた。
同社によると、ELMは従来の大規模言語モデル(LLM)とは異なり、音声データを階層的に解析する多層構造を採用した。テキストベースのAIが見落としやすい感情面や文脈上の情報まで捉え、より正確な音声分析が可能になるとしている。
性能面では、OpenAI、Google、DeepSeek、ElevenLabsの既存モデルと比べて精度が30%高く、運用コストも10分の1〜100分の1に抑えられるという。
ELMは、ゲーム内ボイスチャットを監視する「ToxMod」の開発で直面した課題を踏まえて設計した。ToxModは、感情や意図、文脈を踏まえて、嫌がらせやヘイトスピーチなどをリアルタイムで検知する。
著者について