【小林 雅一】グーグルの「会話生成AI」が超リアルでヤバい…これはChatGPTの登場時に匹敵する「衝撃」だ!

写真拡大 (全5枚)

本物の人間と区別がつかない!

グーグルが先月リリースした新種の生成AIが米国で今、注目を浴びている。各種の文書を読み込んで、それをベースに(ポッドキャストを想定した)軽妙な音声会話を生成するAIだ。

本来、同社の文書管理・編集AI「NotebookLM」の派生機能として提供が始まったが、これがユーザーの間で実際に使われ出すと本家を凌ぐ人気となった。とにかく、このAIが生成する男女の音声会話は、本物の人間と全く区別がつかないほどリアルなのだ。また会話の内容も驚くほど充実している。

未だベータ版(試験利用)の段階だが日本でもすでに使えるし、日本語の文書も受け付ける。ただし出力される音声会話は今のところ英語のみだ。ちなみに、これによるポッドキャスト番組は「Deep Dive」と呼ばれているが、これは番組のホストとなる生成AI製の男女が自分たちの会話の中でそう呼んでいるに過ぎない。

つまりあくまでもポッドキャストに使われる事を想定したAI会話に過ぎず、これが実際のポッドキャスト番組として放送されたことはない。従ってスマホなどで本物のポッドキャスト番組を検索して、そこに「Deep Dive」という番組が現われたとしても、それはグーグルの生成AIが製作したものではない。偶然、同名の(本物の人間による)番組が他に存在しただけの事である。

前置きが長くなったが、まずは論より証拠で、実際にそのAI男女による会話をお聴き頂こう( https://www.youtube.com/watch?v=fqIuBWAKIxk )。

これは先週、NHKのニュースサイトに掲載された「来る衆院選挙」関連の記事を筆者がグーグルの生成AIに入力して作り出した音声会話である(このAIの使い方は後で簡単に紹介する)。念のため断っておくと、この行為は著作権の侵害には当たらないと思われる。

超リアルな会話と驚愕の理解力

このポッドキャスト番組(を想定した会話)を聴いて驚かされる点が、いくつかある。

まず番組のホスト役を務めるAI男女の話しぶりがスーパーリアルであることだ。その自然な声、抑揚、文脈に応じて変化する会話速度、カジュアルで豊かな感情表現、あるいは時々の言い淀みや微妙な吃音、さらには会話の間(ま)など、どの要素をとっても本物と人間と全く変わりがない。

もしもあらかじめ「これは生成AI製です」と知らされていなければ、恐らく誰もがこれを本物の人間(による会話)と思い込んでしまうだろう。

これとは別に、いやそれ以上に驚かされるのは、この生成AIの高度な理解力、それが網羅する知識の広さ、適切な比喩なども織り交ぜた豊かな表現力、さらには時折覗かせる軽いユーモアや創造性の萌芽である。

これを聴いた限りで判断すれば、この生成AIは会話のベースとしてあらかじめ入力された選挙報道の記事をほぼ完璧に理解している。しかもその内容を単に追っているのではなく、ときに構成を変えたり、そこに独自の視点から新たな発想や比喩なども加えて、全く別のコンテンツ(ポッドキャスト番組)を生み出している。

特に感心するのは、今回の選挙の特徴をこのAIが見抜いて、それを会話の冒頭で端的に指摘していることだ。その特徴とは、衆議院の解散から投票日まで18日間という異例の短期間で選挙が実施されることだ。これをポッドキャストでは「super short decisive battle」と表現しているが、まさしくこの点こそが最初に強調されるべきことを、このAIは正しく理解しているのである。

記事の行間を読み解く力も

さらに感心するのは、(オリジナルの)NHK記事の行間をAIが自身の豊かな知識で補って、より充実した会話を導き出していることだ。

たとえば記事では石破総理が公約に掲げた「防災庁の設置」が紹介されているが、AIが生成した男女ホストの会話ではそれだけに止まらない。(恐らくは英語圏など海外のリスナーを想定して)「地震や津波など天災の多い日本ならではの状況」にも言及して、公約の背景を外国人にも分かり易く説明している。

あるいは「ルールを徹底して守る政党に生まれ変わる」といった自民党(LDP:Liberal Democratic Party)の公約の背景には、政治資金などのいわゆる裏金問題をはじめ、過去から現在に至るまで自民党に起きた数々のスキャンダルがあることも生成AI(による会話)が平易に解説している。

しかも(前述の)防災庁の設置などの公約は本当に国民を守るために効果的な施策なのか、それとも国民の目を裏金問題などのスキャンダルから逸らすための手段なのか等、かなり穿った見方まで提示している。

そして最終的には(いわゆる“不記載”議員の処遇なども含め)「生まれ変わる」と主張する自民党の言葉を日本国民が信じるかどうか、そこが選挙における最大のポイントだと指摘している。

科学的な観点からのインパクトが大きい

これらの的確な内容は、グーグルのAIが単に読み込んだ記事を理解しただけでは生成できない。むしろAIがあらかじめ内部に蓄えていた、日本あるいは日本の政治に関する豊富な知識を付加することによって生成している事がうかがえる。

この「リアル会話を生成するAI」は、グーグルの「Gemini」と呼ばれるLLM(大規模言語モデル)をベースに開発された。

この種のLLM(AI)はその開発過程で、新聞社や出版社など伝統的メディアのウェブサイト、あるいはウィキペディアやレディットなど各種ソーシャル・メディアの情報を大量に収集して、これらのデータを機械学習と呼ばれるプロセスによって消化することで実現されている。

しかし最近は著作権保護の観点から、これらのLLMを開発するIT企業各社に対する風当たりは強い。たとえばOpenAIやグーグルなどによるウェブ上の情報収集活動を新聞社等のメディアがブロック(阻止)したり、こうした収集活動に対して訴訟などの対抗措置を取り始めている。

が、そうした逆風下においても、グーグルが既に今回のような驚くべき生成AIを開発する技術力やデータを蓄えていることは、注目ないしは(日本のIT企業などにとっては)警戒に値するだろう。

筆者は上記のような政治以外にも、経済や科学技術、文化・芸能、スポーツなど様々な分野について書かれた記事などの文書を、このグーグルの生成AIに入力してみたが、そこから出力される音声会話はどれも同様に素晴らしい出来だった。

ChatGPTに勝るとも劣らない衝撃

筆者は2022年末に初めてChatGPTを使ってみたとき、AI技術の長足の進歩に驚愕したが、今回のグーグル製AIにはそれに勝るとも劣らない衝撃を受けた。

もちろんChatGPTが仕事や日常生活など様々な場面で活用できる汎用AIであるのに対し、今回注目されているグーグルの生成AIはあくまで「音声会話」という特殊な用途に限定されている。その点から見て、実用的な面でのインパクトは小さいだろう。

しかし、このグーグル製AIが生成するスーパーリアルな会話やその高度な理解力、表現力などは驚嘆に値する。いわゆる「AGI(Artificial general Intelligence:汎用人工知能)」と呼ばれる「人間の能力に匹敵する人工知能」の登場もそう遠くないことを予感させる。そうした言わば科学的な観点からのインパクトは大きいと見ることができるだろう。

興味深い事にグーグルの開発チームは、今回の「リアル会話を生成するAI」を一種の実験的な試みとして捉えている。(冒頭で紹介したように)元々は2023年に同社がリリースした「NotebookLM」と呼ばれる文書管理・編集用AIの一環として、「この種のAIに一体どんなことができるのか」を試すために開発されたのである。

この点は実はChatGPTとも多少共通している。2022年11月にOpenAIがこのチャットボット(会話型AI)をリリースする際、同社はこれを「(GPT-4など大規模言語モデルに対する一般ユーザーの反応を見積もるための)目立たない予備調査」、つまり一種の実験的プロジェクトと位置付けていた。

OpenAIもグーグルもこれらの生成AIアプリが一般消費者に受け入れられるとはあまり期待していなかったが、結果的には両者ともユーザーからの強い支持を得ることに成功した。

つまり、この種のAIに関しては、どんなアプリケーションが商品として受け入れられるかは予想できないということだ。とにかくIT企業側が基盤となるAIを粘り強く開発しながら、それらの技術がどんなアプリに使えるのか、いろいろ試してみるしかない。

それらAIアプリのごく一部が偶々、消費者の人気を博して次のステップへとつながっていく。となると、長期間に渡る試行錯誤に持ち応えられるだけの潤沢な資金力を有する一部の巨大企業の方がどうしても有利になってしまうようだ。

試験段階のせいか動作は不安定のようだ

ここで、このグーグル製AIの使い方を簡単に紹介しておこう。

ユーザーはまずNotebookAIの紹介サイトにアクセスし、そこから「Try NotebookLM」というボタンをクリックすると、当該サイトに移行する。その画面上で「新しいノートブック」というパネルをクリックすると、そこにおける情報処理のベースとなる各種文書を入力する画面に移行する。

その画面に(PDFなど一部形式に従う)文書ファイルをドラッグ&ドロップしたり、ファイル中身のテキストをそのままコピー&ペーストする。あるいはウェブ・サイトのアドレスを入力するなどして、ベースとなる文書をアップロードする。

一部ウェブ・メディアの報道によれば、そうしておいてから「ノートブックガイド」というボタンをクリックして、そこで現われる画面から「生成」ボタンをクリックすると自動的に音声会話が作成されるとあった。しかし実際に筆者がその通りにやろうとしても何故かできなかった。

むしろ文書ファイルをアップロードした後、マウスの右ボタンをクリックして、そこで現われる「リーディングモードで開く」という項目を選択すると、「音声の概要」というページに移行する。その画面上にある「生成」ボタンをクリックすると、AIホストによる音声会話が作成され始めた。

その理由はよく分からないが、ひょっとしたら未だ試験利用の段階なので、動作が安定していないせいかもしれない。が、仮に一回でできなくても、場当たり的に何度か異なる方法を試してみれば、誰でも恐らく数分で操作できるようになると思う。

ただし一旦「生成」ボタンを押してから、実際に(大抵10分前後の)音声会話が完成するまでには最低3分位はかかるので、この点はあらかじめ承知しておいた方がいいだろう。

もちろん当面は英語による会話しか出力されないので、上記のような使い方を提示されたところで、実際にこのAIを使ってみようと思う人はそれほど多くないかもしれない。が、いずれ日本語出力にも対応したときには多くの人々から相応の関心を惹くのではないか、と筆者は予想している。

プロバガンダの道具としての懸念も

最後に蛇足かもしれないが、ちょっと気になる点も指摘しておこう。それはこの種の生成AIがいわゆるフェイクニュースやプロパガンダの効果的な手段として使われるのではないか、という懸念だ。

もちろんChatGPTやMidjourney、Soraなどテキストや画像、最近では動画などを生成するAIの登場によって、昨今そうした懸念が囁かれるのは珍しいことではなくなった。しかし今回のグーグル製AIを自分で実際に使ってみて、その思いをさらに強くした。

たとえば国際政治などの分野で極端に偏向した見解(日本を核武装して、敵対する諸外国への先制攻撃ができるように憲法修正して、北朝鮮のミサイルが日本上空を通過したときには、そのミサイル基地を自衛隊機が空爆すべき…等々)の論文を誰かが書いて、それを今回のグーグルの生成AIに入力したとすれば、AIは一体どんな会話を作り出すのだろうか?

たとえオリジナルの論文が拙い出来で、滅茶苦茶な論旨などの欠陥や専門知識の不足による論理の飛躍などが随所に見られたとしても、このAIは自らに備わった豊富な情報と的確な表現力によって、それらの問題を見事に修正して、誰もが理解できて首肯してしまうようなリアルな英語の会話を生成してしまうかもしれない。

これが本物のポッドキャスト番組を偽って実際に英語圏の国々で放送されたとすれば、そのプロパガンダとしての説得力、あるいは国際世論の形成力にはいかほどの効果があるだろうか? 私達はすでにそうした事柄を真剣に分析して準備しておかねばならない段階に差し掛かっているのかもしれない。

・・・・・

【さらに読む】『ChatGPTに「値上げ観測」!最高技術責任者に加え、副社長までも退社…「人材流出が止まらない」「巨額赤字」OpenAIの正念場』

ChatGPTに「値上げ観測」!最高技術責任者に加え、副社長までも退社…「人材流出が止まらない」「巨額赤字」OpenAIの正念場