写真=Shutterstock

OpenAIが、会話の途中で入る割り込みに応じて返答をリアルタイムで調整できる双方向音声モデル「BiDi」を開発している。The Informationが3月5日、関係者の話として報じた。

現在のChatGPTの高度な音声モードは、いわゆるターン制で動作する。ユーザーの発話が終わるまで、モデルは音声を処理して応答を生成できない仕組みだ。

このため、会話中にユーザーが「うん」「分かった」といった短い相づちを挟むと、モデルはそこで発話を止め、それを別の入力として扱ってしまう。いったん応答の生成を始めると途中で内容を修正しにくく、人との会話に比べて不自然さが残るという。

開発中の新モデルは「BiDi(双方向)」と呼ばれている。話者の音声を継続的に処理し、割り込みが起きてもその場で応答を調整できる点が特徴だ。

The Informationによると、例えばカスタマーサポートで返品手続きを進めている最中に、ユーザーが交換希望へ変更した場合、従来モデルでは処理が中断して混乱しやすい。一方、BiDiは文脈を踏まえて会話を自然に交換手続きへつなげられるとしている。

BiDiは、スマートスピーカーなど音声主体の機器への搭載が想定されている。OpenAIがスマートスピーカーの開発を検討しているとも報じられている。

もっとも、BiDiの実用化にはなお課題が残る。The Informationは関係者の話として、試作モデルでは数分間の会話を続けると誤作動を起こしたり、音声が不自然になったりするケースがあると報道した。OpenAIは当初、第1四半期の投入を目指していたが、第2四半期以降にずれ込む可能性もあるという。

キーワード

#OpenAI #ChatGPT #BiDi #音声AI #スマートスピーカー #カスタマーサポート
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.