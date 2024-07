OpenAIがChatGPTの有料版であるChatGPT Plus向けに、「Advanced Voice Mode」(アドバンスト音声モード)と呼ばれる新機能を提供すると発表しました。アドバンスト音声モードはユーザーがChatGPTと音声で自然に会話しながら、さまざまなやり取りが可能になるという機能です。OpenAI releases ChatGPT's hyper-realistic voice to some paying users | TechCrunch

We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK— OpenAI (@OpenAI) July 30, 2024

2024年7月31日、OpenAIが「ChatGPT Plusユーザーの一部グループ向けに、Advanced Voice Mode(アドバンスト音声モード)の展開を開始しています。アドバンスト音声モードでは、より自然なリアルタイム会話が可能になり、いつでも中断でき、ユーザーの感情を感知して反応してくれます」と述べ、有料会員向けにアドバンスト音声モードの提供を開始したことを発表しました。なお、アドバンスト音声モードは2024年秋までにはすべてのChatGPT Plusユーザーに展開されることとなる見込みです。今回発表された「アドバンスト音声モード」は、OpenAIが2024年5月に発表したGPT-4oの音声会話機能を指しています。これまでのChatGPTにも音声会話機能は搭載されていましたが、「音声をテキストに変換するモデル」「入力テキストを元に返答テキストを生成するモデル」「返答テキストを音声に変換するモデル」という複数のモデルを用いて実現されていたため、人間同士のような自然な会話を実現することはできませんでした。しかし、GPT-4oは単一のモデルで「音声や画像、映像などの入力を受け取ってから返答する」という処理を実行できるため、非常にスムーズな会話が可能となっています。ただし、GPT-4oで追加された新しい音声機能については、「Sky」と呼ばれる音声がハリウッド女優のスカーレット・ヨハンソン氏の声に似ているということが問題となりました。OpenAIはヨハンソン氏の声を使っていないと否定していましたが、その後、問題の音声である「Sky」を削除。さらに、安全対策を改善するために音声機能のリリースを延期すると発表していました。スカーレット・ヨハンソンがGPT-4oの新音声が自分と似ていることについて「ショックを受け、怒りを覚えた」と意見表明 - GIGAZINEOpenAIはChatGPT Plusユーザーに提供するアドバンスト音声モードについて、ユーザーの使用状況を注意深く監視していると言及。さらに、発表前のタイミングで「45言語を話す100人以上の外部組織と共に、GPT-4oの音声機能をテストした」とも説明していました。なお、一部のユーザーグループはChatGPTアプリ経由でアドバンスト音声モードに関する通知を受け取り、その後、使用方法の説明が記載されたメールが届くこととなるそうです。2024年1月にはAIスタートアップ・ElevenLabsの音声複製技術を使用したジョー・バイデン大統領のなりすまし音声が選挙活動で利用されたとして、大きな問題となりました。このような事態を避けるべく、OpenAIはディープフェイクをめぐる論争を極力避けようと努力しています。AIで生成されたバイデン大統領の「偽音声」電話が多数の有権者にかけられている - GIGAZINE