Image:IJ-studio / Shutterstock.com, OpenAI

Lifehacker 2024年10月2日掲載の記事より転載

今年5月に、OpenAIはChatGPTの高度な音声モードの開始を発表しました。

同社は、この新機能を当時存在していた「音声モード」の強化版として紹介。ChatGPTと会話ができるだけでなく、やり取りがより自然になるとされていました。

話題を変えたいときは途中でボットを遮ることができ、ChatGPTは声のスピードやトーンを理解し、それに応じて感情を込めて返答してくれるようになる、とのことでした。

2013年の映画『her/世界でひとつの彼女』に登場するAI音声アシスタントに少し似ているように感じるかもしれません。

実際、OpenAIがこの機能をデモンストレーションした際、声があまりにも同作で人工知能の役を務める女優スカーレット・ヨハンソンに似ていたのです。

これにスカーレット・ヨハンソンは訴訟を起こし、その後OpenAIはその声を完全に削除しました。

しかしその声が削除されたとしても問題ありません。現在でも音声は9種類取り揃えられています。

OpenAIは7月に少人数のテストグループを対象に高度な音声モードのテストを開始。

この機能は現在、すべての有料ユーザーに展開されています。対象となるアカウントを持っていれば、今日からその機能を試すことができるはずです。

ChatGPTの高度な音声モードの使い方

現時点では、ChatGPT有料会員のみが高度な音声モードを利用することができます。

つまり、高度な音声モードを利用するには、ChatGPT PlusまたはChatGPT Teamsのメンバーシップ登録が必要です。

無料ユーザーは、アプリ内にヘッドフォンのアイコンとして表示される無料の音声モードを引き続き利用できます。

高度な音声モードは波形アイコンとして表示され、PlusおよびTeamの会員のみが確認できます。

この機能にアクセスするには、新しいチャットを開き、波型アイコンをタップします。

初めて高度な音声モードを使うときは、9つの選択肢から声を選ばなければなりません。それぞれの音声モードについてOpenAIの説明を以下に掲載します。

・Arbor: 落ち着いていて多用途

・Breeze: 活発で誠実

・Cove: 冷静で率直

・Ember: 自信に満ち楽観的

・Juniper: オープンで明るい

・Maple: 陽気で率直

・Sol: 洞察力がありリラックスしている

・Spruce: 落ち着いていて肯定的

・Vale: 明るく好奇心旺盛

私は結局Arborを選んだのですが、Arborの声は「Headspace」(ヘッドスペース)の男性を非常に思い出させるものです。

ここから、高度な音声モードは標準の音声モードとほとんど同じように機能します。あなたがChatGPTに何かを言うと、返答してくれますよ。

実際にどのように機能するのか?

新しい高度音声モードを短時間使用した限りでは、以前の音声モードに比べてあまり進展を感じませんでした。

新しい声は、過去の声よりも若干「自然」に感じるかもしれませんが、会話がより生き生きとしたものになったとは思いません。

デジタルパートナーの音声を途中で遮ることができる機能は、より自然な会話ができるというイリュージョンを多少売りこむことになりますが、その反応は敏感です。

たとえばChatGPTが話しているときにiPhoneを手に取ると、瞬時に会話が止まりました。

OpenAIは、ユーザーが話を遮りたいときと、ランダムな外部音が発生したときを理解する能力を向上させる必要があると思います。

もちろん、OpenAIは不要な中断を避けるためにヘッドフォンを使用することを推奨しており、iPhoneを使用している場合は音声の分離モードを有効にすることをすすめています。

今回はヘッドフォンなしで音声分離モードを使用していたので、ヘッドフォンを使えばまた状況は違うかもしれません。

OpenAIがChatGPTのユーモラスで遊び心のある一面を抑えたように見えますが、頼めばボットを笑わせることはまだできます。

その笑い声は、人工的な声にしては印象的だと思いますが、どこか不自然で、別の録音から「笑い」を引き出しているように感じます。

しかし泣いたり叫んだりといった、ほかの似たような音を出すよう頼んでも、拒否されます。

曲を聴かせてその曲を特定するように音声モードに頼んでみましたが、それはできないと言われました。

音声ボットは特に歌詞だけを共有するように求めてきたので、指示に従ったところ、歌詞の雰囲気に基づいて曲を提案してきました。

しかし、その曲は実際の歌詞そのものに基づいてはいませんでした。

そのため、ボットの推測は大きく外れてしまいましたが、まだこの種のタスクに対応できるようにはつくられていないようなので、今回は大目に見ましょう。

ChatGPT同士で会話することはできるか?

私はChatGPT同士で会話させてみることにしました。

2人のChatGPTの音声モードを会話させはじめると、まずは完全に気まずい会話のなかでお互いに遮り合いが開始。

最終的に一方がおかしくなってしまい、私に以前送った「歌詞を共有して曲を特定する」というメッセージを繰り返してしまいました。

もう一方の声は「もちろん、歌詞を共有してくれれば、曲を特定するのを手伝うよ」といった感じのことを言いました。

それに対し、もう一方の声は「もちろん、歌詞を共有してくれれば、曲を特定するために最善を尽くすよ」と返答。

私が会話を打ち切るまで、このやり取りは5分ほど続きました。

一度チャットボットを明確なチャットで設定すると、彼らはほとんど興味深いことを言わずに、永遠にやり取りを続けました。

彼らは拡張現実、料理、朝のルーティンについて話し合い、チャットボット特有の熱意と曖昧さを持っていました。

しかし奇妙だったのは、一方のボットが「もし料理ができるなら、ラザニアをつくりたい」と話し終えたあと、もう一方のチャットボットに「好きな料理や挑戦してみたい料理はあるか?」と尋ねたことです。

すると、もう一方のボットはこのように答えました。

「利用者は朝にコーヒーを飲みながらニュースをチェックするのが好きです」

それは、以前のテスト中にChatGPTが私の朝のルーティンについて尋ねたときに話したことです。

これはOpenAIのメモリ機能が機能している証拠ですが、実際に過去の回答を使っている様子をみると少し奇妙ですね…。

好きなレシピについての質問に、なぜあのような返答をしたのでしょうか。

私がボットをショートさせたのでしょうか。それとも、自分自身とチャットしていることに気づいて、もう一方のボットに状況を警告しようとしたのでしょうか?

ユーザーのプライバシーをどのように扱うか

高度な音声モードを使用すると、OpenAIはあなたの録音、つまりあなたの会話の部分も含めて保存します。

チャットを削除すると、OpenAIは30日以内にあなたの音声録音を削除するとしていますが、安全性や法的理由で保持する必要があると判断した場合は例外があります。

OpenAIは、以前にあなたが音声録音を共有し、その音声クリップがあなたのアカウントから切り離されていた場合、チャットを削除したあとも録音を保持します。

OpenAIがあなたの音声録音やチャットの文字を使ってモデルをトレーニングしないようにするには、ChatGPTの設定画面で「Data Controle」(データコントロール)を選択。

そして「Improve the model for everyone(すべての人のためにモデルを改善する)」と「Improve voice for everyone(すべての人のために音声を改善する)」を無効にしましょう。

Source: YouTube, OpenAI
Image:IJ-studio / Shutterstock.com, OpenAI