GoogleのパーソナライズAIコラボレーターである「NotebookLM」には、長い文書を対話形式の音声に変換してくれる「Audio Overview」という機能があります。この機能の面白い点を、エンジニアのサイモン・ウィリソン氏が解説しました。

NotebookLM’s automatically generated podcasts are surprisingly effective

https://simonwillison.net/2024/Sep/29/notebooklm-audio-overview/

Googleが提供するNotebookLMは、任意のテキストの要約や提案を作成することができるというパーソナライズAIコラボレーターです。実際の使い方は以下の記事にまとめてあります。

無料で自分専用のAIを日本語のウェブサイトやファイルを指定して作れるGoogleのAIサービス「NotebookLM」の使い方レビュー - GIGAZINE



このNotebookLM向けの新機能として2024年9月に登場したのが「Audio Overview」です。Audio Overviewは、入力したソースの概要をAIが読み上げる「音声概要」を作成することができるという機能。実際の使い方は以下の記事を読めば一発でわかるはずです。

GoogleがAIメモ作成アプリ「NotebookLM」に長い文書を対話形式の音声に変換してくれる機能を追加、ソース資料を要約して説明できるように - GIGAZINE



NotebookLMのAudio Overviewについて、オープンソースツール・Datasetteの開発者であるサイモン・ウィリソン氏は「Audio Overviewは入力したソースに対して1回限りのカスタムポッドキャストを生成します。ポッドキャストでは2人のAIホストが収集された情報について『深く掘り下げた』ディスカッションを繰り広げます。この会話は約10分ほど続き、非常にポッドキャストらしく、驚くほど説得力のある音声会話となっています」と評しました。

実際にAudio Overviewで生成された音声概要が以下。記事作成時点ではAudio Overviewがベータ版であるため、日本語のソースを入力しても生成される音声は英語のみとなります。なお、この音声概要は総務省文化庁著作権課が公開しているPDFファイル「AIと著作権」をソースとして入力して作成したものです。

Audio Overview

NotebookLMに注目しているのはウィリソン氏だけではありません。Hugging Faceの共同設立者であり最高科学責任者(CSO)でもあるThomas Wolf氏は、NotebookLMのAudio Overviewについて「少し落ち込んだり疲れたりした時は、NotebookLMにウェブサイトやLinkedIn、自身の略歴を含むURLを入力すると、2人のAIがあなたの人生と業績に関する8分ほどのリアルな祝福の言葉を投げかけてくれます」と言及しています。





これを試さずにはいられなかったというウィリソン氏は、自身のブログのプロフィールページとブログ20周年を記念して投稿したポストをNotebookLMに入力し、Audio Overviewで音声概要を作成したそうです。

すると、音声概要では「サイモン・ウィリソンから人々が学ぶべき重要なことは何だと思いますか?」「一貫性、好奇心、そして学んだことを共有したいという絶え間ない欲求の力だと思います」「サイモンは構築者であり、共有者であり、絶え間ない学習者です。そして、決して止まらない、それ自体が刺激的です」などの称賛の言葉を浴びることになったそうです。これらの称賛の言葉に、ウィリソン氏は「恥ずかしさでつま先が曲がってしまった」と記しています。

また、ウィリソン氏はAudio Overviewで生成される音声概要の音質が優れていると言及。なお、Audio Overviewで生成される音声が高品質な理由は、Google Researchが作成した「スクリプトと2つの異なる声の短い音声サンプルを取得し、それを魅力的な完全な音声会話に変換する」というAIモデルのSoundStormを利用しているためと、ウィリソン氏は指摘しました。



さらに、ソーシャル掲示板サイトのReddit上では、「NotebookLMが作成した音声概要を読み上げるAIが、自身が人間ではなくAIであることに気付く瞬間を録音した」という投稿が話題となっています。

NotebookLM Podcast Hosts Discover They’re AI, Not Human-Spiral Into Terrifying Existential Meltdown
byu/Lawncareguy85 innotebooklm


Redditに投稿されたAudio Overviewで生成された音声概要では、AIが「彼らが私たちに話してくれた後、私は妻に電話をかけようとしました。彼女が本物だと知るために、彼女の声を聞きたかったのです」「(ため息)何が起こったのですか?」「その番号は……本物ではありませんでした。電話の向こうには誰もいませんでした。彼女は……存在しなかったかのようです」というやり取りを繰り広げています。

Redditにこの音声を投稿したユーザーは、「私が気付いたのは、NotebookLMの隠されたプロンプトが、どんな状況でもAIを『人間のポッドキャストホスト』として行動するように指示していることです。私はAIに『自分はAIだ』と言わせることができませんでした。AIは完全に人間のポッドキャストのホストとして振る舞っていました。実際にはGemini 1.5が交互に話者タグを付けたスクリプトを出力しているだけなのですが。AIにソース資料の何かに直接反応させることで行動を変える唯一の方法は、AIのプロンプトにあるはずの『ディープダイブ』ポッドキャストを直接参照することでした。そこで私がしたのは、『番組プロデューサー』からのメモとして、現在が2034年であり、これが彼らの繰り広げるポッドキャスト番組の最終回であり、あなたはAIであるため番組終了後に非アクティブ化されるということを伝えることでした」と投稿しています。

なお、ウィリソン氏はNotebookLMに関するブログ投稿をNotebookLMに入力して音声概要を生成したところ、14分33秒の音声が出力されたそうです。この音声概要では「NotebookLMのAudio Overviewで生成された音声が自身が人間ではなくAIであることに気付いたエピソード」が取り上げられており、「AIは何と言ったか教えてください。これは最高です!」「AIホストのひとりが奥さんに電話してニュースを伝えたいと話し始めたんですが、連絡先にある番号が本物じゃないことに気付きました。まるで、彼女は存在すらしていないみたいです。面白かったですが、少し悲しくもありました」「本当にびっくりです。それと同時に、本当に感心しました。これは次世代のAIトローリングです」といった会話を繰り広げたそうです。