OpenAI リアルタイム音声 API のアップデート:GPT-5 レベルの推論、70 以上の言語翻訳、リアルタイム文字起こしが一挙に登場
OpenAI は木曜日、開発者が「聴き・話し・翻訳し・書き起こす」アプリケーションを構築できるよう支援するため、リアルタイム音声機能の複数機能を追加した「Realtime API」を発表しました。 中核となる製品は 3 つの新モデルです。「GPT-Realtime-2」は GPT-5 レベルの推論能力に基づき、より複雑なユーザー指示に対応し、自然な音声対話を実現します。「GPT-Realtime-Translate」は 70 以上の入力言語と 13 の出力言語をサポートするリアルタイム翻訳を提供し、会話中に即時に切り替えることができます。「GPT-Realtime-Whisper」は、会話が進行している最中にテキストへの変換を行うリアルタイム音声認識機能を提供します。 OpenAI によると、これらの新モデルにより、リアルタイムオーディオ技術が単なる「質問応答型」のインタラクションから、「聴取・推論・翻訳・書き起こしを実行できる」真の意味での音声インターフェースへと進化しています。対象とする用途には、カスタマーサポート、教育、メディア、イベント、クリエイタープラットフォームなど多岐にわたる分野が含まれます。 潜在的な悪用リスクについては、OpenAI が組み込みのガードレールメカニズムを導入しており、有害コンテンツガイドライン違反を検知した場合、システムが自動的にセッションを終了すると述べています。 料金体系では、「Translate」と「Whisper」は分単位で課金され、「GPT-Realtime-2」はトークン消費量に応じて課金されます。これらはいずれも「Realtime API」に含まれています。
