OpenAIは、リアルタイムの対話、翻訳、文字起こしに対応する音声モデル3種をRealtime APIに追加した。TechCrunchが5月8日に報じた。これらのモデルは、いずれもOpenAIのRealtime APIから利用できる。
追加したのは、「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」の3モデル。GPT-Realtime-2は、従来のGPT-Realtime-1.5と比べてGPT-5クラスの推論性能を備え、より複雑なリクエストに対応できるとしている。
GPT-Realtime-Translateは、会話のスピードに合わせてリアルタイム翻訳を行うモデルだ。70以上の言語を入力として理解し、13言語で出力できる。GPT-Realtime-Whisperは、会話の進行に合わせて音声をリアルタイムでテキスト化する。
OpenAIは今回のリリースについて、リアルタイム音声を単純な質疑応答の枠を超え、会話の流れに沿って音声を理解し、推論、翻訳、文字起こし、応答や処理まで担う音声インターフェースへと進化させるものだと説明している。
想定する活用分野としては、カスタマーサービス、教育、メディア、イベント、クリエイタープラットフォームなどを挙げた。あわせて、スパムや詐欺などの悪用を防ぐためのガードレールを設け、有害コンテンツに関するガイドライン違反を検知した場合には会話を中断する仕組みも組み込んだとしている。
料金体系はモデルごとに異なる。GPT-Realtime-TranslateとGPT-Realtime-Whisperは時間ベースで課金し、GPT-Realtime-2はトークン消費量に応じて課金する。