OpenAIが2024年10月1日に、すべての開発者がアプリ内で低遅延のマルチモーダルエクスペリエンスを構築できるようにする「Realtime API」のパブリックベータ版の提供を開始しました。これにより、さまざまなアプリでAIとのリアルタイムな会話が可能になります。

Introducing the Realtime API | OpenAI

https://openai.com/index/introducing-the-realtime-api/





これまで、音声アシスタントを実現するためには、音声認識モデルがユーザーの入力した音声を書き起こし、そのテキストをテキストモデルに渡した上で推論を行い、その出力をテキスト読み上げAPIを用いて再生する必要がありましたそのため、このアプローチでは感情や強調、アクセントが失われるほか、遅延が顕著になるという問題が発生していました。

しかし、Realtime APIでは、オーディオ入出力を直接ストリーミングすることでこの問題を改善して、より自然な会話体験を実現しているとのこと。また、有料ユーザー向け機能「Advanced Voice Mode」と同様に、中断を自動的に処理することも可能です。

内部的には、Realtime APIとGPT-4oの間でメッセージを交換するための永続的なWebSocket接続を作成します。また、Realtime APIは「Function calling」をサポートしていることから、作成した音声アシスタントはアクションをトリガーしたり、新しいコンテキストを取得したりして、ユーザーのリクエストに応答できるそうです。

実際に栄養バランスとフィットネスのコーチングアプリ「Healthify」では、Realtime APIを活用してAIコーチ「Ria」との自然な会話ができるほか、必要に応じて人間の栄養士によるパーソナライズされたサポートを受けることが可能です。

また、言語学習アプリの「Speak」では、Realtime APIを使用してロールプレイ機能を強化し、ユーザーの言語学習をサポートしているとのこと。





Realtime APIは「gpt-4o-realtime-preview」として2024年10月1日から利用可能になっています。Realtime APIの利用料金が以下。なお、OpenAIによるとオーディオ入力の価格は1分当たり約0.06ドル(約8.6円)、出力は1分当たり0.24ドル(約34円)に相当するそうです。

 テキスト入力テキスト出力オーディオ入力オーディオ出力100万トークン当たりの価格5ドル(約718円)20ドル(約2870円)100ドル(約1万4300円)200ドル(約2万8700円)

Realtime APIの安全性についてOpenAIは「自動監視やモデルの入力と出力に対する人間によるレビューなど、複数の安全保護レイヤーを使用してAPIの不正使用のリスクを軽減しています」と述べています。また、ユーザーに対し「OpenAIのサービスからの出力をスパムや誤解を招く目的、他者に危害を加える目的で再利用または配布することは、利用ポリシーに違反します。当社は、潜在的な不正使用を積極的に監視しています。文脈から明らかな場合を除き、開発者がAIとやり取りしていることをユーザーに対して明確に伝えることも義務付けています」と忠告しています。

さらに、OpenAIは「お客様による明示的な許可なしに、このサービスで使用される入力または出力でモデルを学習することはありません」と宣言しました。

将来的に導入予定の機能についてOpenAIは「画像や動画などのモダリティの追加」「レート制限の引き上げ」「公式SDKのサポート」「「プロンプトキャッシングの導入」「サポートするモデルの拡張」を挙げています。