OpenAI、Realtime APIに音声モデル3種　対話・翻訳・文字起こし対応

生成中...

Chi-gyu Hwang

公開 2026-05-08 15:39:47

この記事を共有

OpenAIは、リアルタイムの対話、翻訳、文字起こしに対応する音声モデル3種をRealtime APIに追加した。TechCrunchが5月8日に報じた。これらのモデルは、いずれもOpenAIのRealtime APIから利用できる。

追加したのは、「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」の3モデル。GPT-Realtime-2は、従来のGPT-Realtime-1.5と比べてGPT-5クラスの推論性能を備え、より複雑なリクエストに対応できるとしている。

GPT-Realtime-Translateは、会話のスピードに合わせてリアルタイム翻訳を行うモデルだ。70以上の言語を入力として理解し、13言語で出力できる。GPT-Realtime-Whisperは、会話の進行に合わせて音声をリアルタイムでテキスト化する。

OpenAIは今回のリリースについて、リアルタイム音声を単純な質疑応答の枠を超え、会話の流れに沿って音声を理解し、推論、翻訳、文字起こし、応答や処理まで担う音声インターフェースへと進化させるものだと説明している。

想定する活用分野としては、カスタマーサービス、教育、メディア、イベント、クリエイタープラットフォームなどを挙げた。あわせて、スパムや詐欺などの悪用を防ぐためのガードレールを設け、有害コンテンツに関するガイドライン違反を検知した場合には会話を中断する仕組みも組み込んだとしている。

料金体系はモデルごとに異なる。GPT-Realtime-TranslateとGPT-Realtime-Whisperは時間ベースで課金し、GPT-Realtime-2はトークン消費量に応じて課金する。

Chi-gyu Hwang delight@d-today.co.kr

OpenAI、Realtime APIに音声モデル3種　対話・翻訳・文字起こし対応

GPT-Realtime-2などを追加、GPT-Realtime-TranslateとGPT-Realtime-Whisperは時間課金

生成中...

AI要約

OpenAIは5月8日、リアルタイムの対話、翻訳、文字起こしに対応する音声モデル3種をRealtime APIに追加した。GPT-Realtime-2はトークン課金、GPT-Realtime-TranslateとGPT-Realtime-Whisperは時間課金で提供する。

キーワード