Googleが、論文や書籍をAIが要約し、その内容を元に会話形式の音声コンテンツを生成する「Google Illuminate」において生成される音声のプレビューを公開しました。記事作成時点で、Google Illuminateはあくまでも実験的なデモとして公開されていますが、実際に論文を音声に変換した結果をウェブサイト上で聞くことが可能です。

Illuminate

https://illuminate.google.com/home

Google Illuminateのページはこんな感じ。



記事作成時点では、コンピューターサイエンスの学術論文が例として提示されています。「Play」をクリックすると、実際に生成された音声を聞くことができます。Googleの研究者が2006年にTransformerモデルを発表した論文「(PDFファイル)Attention is All You Need」の音声を再生したところの音声を再生したところ、「この論文のコアとなるアイデアは何ですか?」「リカレントや畳み込みを使用せず、代わりに『アテンション』メカニズムを使用することで効率的なsequence transduction modelsを作成できるというものです。機械翻訳という文脈においては、この新しいアプローチはRNNよりパフォーマンスが向上するだけでなく、トレーニングを素早く行う事ができます」というように男女2人が論文の内容について語る英語音声が再生されました。



ブラウザ下部にプレイヤーが表示され、男女2人が論文の内容について語る英語音声が再生されます。プレイヤーには生成した音声を評価するフィードバックとフラグ付けのボタンがありました。



「View Source」をクリックすると、論文へのリンクと生成された音声の長さ、生成日時が表示されます。



Googleは「Gogle Illuminateは実験的なプロダクトであるため、2人が会話する形式のAI生成音声は、元の研究論文のニュアンスを必ずしも完全に捉えているとは限りません。時折エラーや矛盾が生じる可能性があり、ユーザーエクスペリエンスを向上させるために継続的に改善を行っていることをご了承ください」と述べています。

Google Illuminateを利用するには「Sign in to join waitlist」をクリックし、Googleアカウントにログインした上で順番待ちに登録する必要があります。なお、記事作成時点では日本語のテキストに対応しているかどうかは不明です。



ソーシャルニュースサイトのHackerNewsでは、「学術論文へのアクセス性が高まり、興味深いと思われる論文をチェックしたい人にも役立ちます」「なんと素晴らしいアイデアでしょう。ダウンロードしても読む機会がない論文を学ぶにはぴったりの方法です」という肯定的な意見もあれば、「数分以上は聞いていられませんでした。いつもと同じで、大規模言語モデルによる冗長な生成結果らしいつまらない内容です」「生成AIのいい加減さによってすぐダメになって、3年以内にGoogleがサービス終了するのではないでしょうか」「リアルな人間の会話にすることで、大規模言語モデルが幻覚を起こしている可能性や、論文の間違った部分を重要なものとして強調してしまっている可能性がわかりにくくなるのは問題だと思います」という否定的な意見も見られました。また、「Apple Podcastsのトップリストを見ると、故意に嘘をついたり情報を操作したりする生身の人間がたくさんいるので、コンピューターが生成した嘘についてはあまり心配しなくていいでしょう」という皮肉交じりのコメントもありました。