OpenAIがChatGPTに「画像の内容を判断して応答する機能」と「テキストではなく音声でコミュニケーションする機能」を追加することを発表しました。これにより「冷蔵庫の中身を見せてレシピを提案してもらう」といった視覚を伴うコミュニケーションが可能になるほか、人間と会話するように音声コミュニケーションをとることが可能となります。

ChatGPT can now see, hear, and speak

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

OpenAIによると、今後2週間以内に有料プラン「ChatGPT Plus」と「ChatGPT Enterprise」の加入者に対して画像の内容を認識して応答する機能と音声でコミュニケーションする機能を提供予定とのこと。このうち、画像認識機能は全プラットフォームで利用可能になり、音声コミュニケーション機能はiOS版ChatGPTとAndroid版ChatGPTでのみ利用可能になる予定です。

◆画像認識機能

画像認識機能では、ChatGPTに画像を入力することでGPT 3.5やGPT 4を用いて画像認識処理が行われ、画像を踏まえて応答を返してくれます。例えば、「冷蔵庫の中身を見せてレシピを提案してもらう」「グラフを見せて要点を解説してもらう」といった操作が可能です。

以下の例では自転車の写真を見せつつChatGPTに「自転車のサドルの下げ方を教えて」と質問した結果、「クイックリリースレバーやボルトを操作して」とサドルの下げ方を教えてくれています。

さらに、写真の一部を白線で囲って「レバーってこれ?」と尋ねると、「違います。それはボルトです。緩めるには六角レンチが必要です」と回答してくれました。

さらに自転車の説明書と工具箱の写真を見せて「説明書と工具箱はこんな感じだけど、合ってる道具はある?」と聞くと「工具箱の左側に入っている『DEWALT』というラベルが付いた工具が使うべき工具です」と教えてくれました。

◆音声コミュニケーション機能

音声コミュニケーション機能の画面はこんな感じ。ユーザーが発話した内容が文字起こしAI「Whisper」で認識され、発話内容に対してChatGPTが音声で応答してくれます。

ChatGPTの声は「テキストと数秒の音声サンプルだけで合成音声を作り出せるAIモデル」を用いて作成されており、記事作成時点では5種類の声のサンプルが公開されています。以下のムービーを再生してChatGPTの声のサンプルを試聴すると、かなり自然な声が出力されていることが分かります。

ChatGPTの音声会話機能のサンプル - YouTube

なお、ChatGPTの合成音声作成に用いられているAIモデルは、Spotifyでテスト中の自動翻訳機能にも採用されています。