OpenAIがChatGPTの有料版であるChatGPT Plus向けに、「Advanced Voice Mode」(アドバンスト音声モード)と呼ばれる新機能を提供すると発表しました。アドバンスト音声モードはユーザーがChatGPTと音声で自然に会話しながら、さまざまなやり取りが可能になるという機能です。

OpenAI releases ChatGPT's hyper-realistic voice to some paying users | TechCrunch

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/



OpenAI Debuts Advanced Voice AI for Subscribers

https://www.pymnts.com/artificial-intelligence-2/2024/openai-debuts-advanced-voice-ai-for-subscribers/

OpenAI opens limited access to ChatGPT Advanced Voice Mode | VentureBeat

https://venturebeat.com/ai/openai-opens-limited-access-to-chatgpt-advanced-voice-mode-on-mobile/

OpenAI rolls out highly anticipated advanced Voice Mode, but there's a catch | ZDNET

https://www.zdnet.com/article/openai-rolls-out-new-advanced-voice-mode-heres-how-you-can-access/

ChatGPT's Advanced Voice Mode Is Here for a Select Few

https://www.howtogeek.com/openai-launches-chatgpt-advanced-voice-mode-alpha/

OpenAI rolls out advanced Voice Mode and no, it won't sound like ScarJo

https://www.engadget.com/openai-rolls-out-advanced-voice-mode-and-no-it-wont-sound-like-scarjo-200426358.html

2024年7月31日、OpenAIが「ChatGPT Plusユーザーの一部グループ向けに、Advanced Voice Mode(アドバンスト音声モード)の展開を開始しています。アドバンスト音声モードでは、より自然なリアルタイム会話が可能になり、いつでも中断でき、ユーザーの感情を感知して反応してくれます」と述べ、有料会員向けにアドバンスト音声モードの提供を開始したことを発表しました。なお、アドバンスト音声モードは2024年秋までにはすべてのChatGPT Plusユーザーに展開されることとなる見込みです。





今回発表された「アドバンスト音声モード」は、OpenAIが2024年5月に発表したGPT-4oの音声会話機能を指しています。これまでのChatGPTにも音声会話機能は搭載されていましたが、「音声をテキストに変換するモデル」「入力テキストを元に返答テキストを生成するモデル」「返答テキストを音声に変換するモデル」という複数のモデルを用いて実現されていたため、人間同士のような自然な会話を実現することはできませんでした。しかし、GPT-4oは単一のモデルで「音声や画像、映像などの入力を受け取ってから返答する」という処理を実行できるため、非常にスムーズな会話が可能となっています。

ただし、GPT-4oで追加された新しい音声機能については、「Sky」と呼ばれる音声がハリウッド女優のスカーレット・ヨハンソン氏の声に似ているということが問題となりました。OpenAIはヨハンソン氏の声を使っていないと否定していましたが、その後、問題の音声である「Sky」を削除。さらに、安全対策を改善するために音声機能のリリースを延期すると発表していました。

スカーレット・ヨハンソンがGPT-4oの新音声が自分と似ていることについて「ショックを受け、怒りを覚えた」と意見表明 - GIGAZINE



OpenAIはChatGPT Plusユーザーに提供するアドバンスト音声モードについて、ユーザーの使用状況を注意深く監視していると言及。さらに、発表前のタイミングで「45言語を話す100人以上の外部組織と共に、GPT-4oの音声機能をテストした」とも説明していました。なお、一部のユーザーグループはChatGPTアプリ経由でアドバンスト音声モードに関する通知を受け取り、その後、使用方法の説明が記載されたメールが届くこととなるそうです。

2024年1月にはAIスタートアップ・ElevenLabsの音声複製技術を使用したジョー・バイデン大統領のなりすまし音声が選挙活動で利用されたとして、大きな問題となりました。このような事態を避けるべく、OpenAIはディープフェイクをめぐる論争を極力避けようと努力しています。

AIで生成されたバイデン大統領の「偽音声」電話が多数の有権者にかけられている - GIGAZINE