音声AIを巡る競争が激しさを増している。従来の音声合成(TTS)中心の用途から、感情を踏まえた応答や実務処理まで担う「音声エージェント」へと進化が進み、OpenAIやGoogle、Amazon、Appleなど大手テック企業が機能拡張を急いでいる。韓国でもHumeloやNeoSapiensなどスタートアップの動きが具体化してきた。
音声AIはもはや、テキストを機械的に読み上げるだけの技術ではない。人の感情をくみ取りながら自然に会話し、業務まで実行する水準へと高度化している。
これまでの音声処理は、音声をテキストに変換する音声認識(STT)、AIによる理解とテキスト生成、音声合成(TTS)を組み合わせる形が主流だった。足元では、こうした複数工程を単一モデルに統合し、リアルタイムで音声の入出力を処理する方式への移行が進む。技術領域も、リアルタイム音声対話、音声認識、ボイスクローニングに加え、電話やアプリ上で業務をこなす音声エージェントへと広がっている。
主戦場の一つがコンタクトセンターだ。オペレーター業務の代替や補助にとどまらず、ポリシー順守の確認やCRM連携など、より高度な機能を備えた音声AIの導入が増えている。
こうした流れを受け、2025年以降は音声エージェント分野の競争が一段と激化した。市場調査会社Grand View Researchによると、対話型AI市場は2024年の約115億ドルから2030年には約414億ドルへ拡大し、年平均成長率は23.7%に達する見通しだ。
大手各社も音声AIを前面に押し出している。OpenAIは「Realtime API」の正式提供を開始し、電話網との連携や画像入力に対応した本番運用向けの音声エージェント機能を打ち出した。
Googleは「Gemini Live」を通じて、45以上の言語に対応するリアルタイム音声対話サービスを拡充している。スマートホーム領域では、従来のGoogle Assistantに代わる「Gemini for Home」の展開も進める。
Amazonも生成AIを搭載した「Alexa+」で音声AIの強化を急ぐ。Appleは1月30日、イスラエルの音声AIスタートアップQ.AIを買収した。Q.AIは、ささやき声の検知や騒音下での音声明瞭化技術を手掛ける。Appleは前年、AirPodsにリアルタイム翻訳を含むAI機能を追加しており、Q.AIが持つ微細な顔面筋活動の検知技術は、Apple Vision Proの改良にもつながる可能性がある。
韓国企業の動きも活発化している。韓国のスタートアップHumeloは2025年、「DIVE(Deep-context Interactive Voice Engine)」を公開した。
Humeloによると、DIVEは単なる読み上げにとどまらず、対話の文脈や相手の感情を把握できる。例えば、顧客が怒った口調で不満を訴えた場合、AIがその感情を認識し、落ち着いた共感的なトーンで応答するといった活用を想定している。
Humeloのクォン・ヨンソク代表は、「政府のAI育成方針と企業の技術革新がかみ合い、韓国は音声AIで後れを取るのではなく、グローバルの先頭集団を形成しつつある」とコメントした。その上で、「HumeloのDIVEは人の感性を理解し、コミュニケーションを支える最も人間的な技術として、世界市場でK-AIの存在感を高めていく」と述べた。
AI音声俳優サービス「Typecast」を手掛けるNeoSapiensも最近、165億ウォンのプレIPO投資を受けた。