生成AIが話し相手になる時代がやってきた。人間同士の会話とAIとの会話で、最も異なる点は何か。『言語学者、生成AIを危ぶむ 子どもにとって毒か薬か』(朝日新書)を出した川原繁人さんは「人間言語生成AIの重要な違いが、前者は『音』から学ぶのに対して、後者は『文字』を訓練データとする点だ」という――。
写真=iStock.com/cheangchai4575
※写真はイメージです - 写真=iStock.com/cheangchai4575

■「Cotomo」とのおしゃべり動画を視聴してみた

2025年4月現在、AI「しまじろう」が正式にリリースされましたが、そこでできるやり取りはまだ「しりとり」や「クイズ」など単純なものに限られていて、「会話」と呼べるほどのやり取りはできません。本書執筆時点では、これからどのような機能が追加されていくかはわかりません。

一方で大人向けの「Cotomo」という「音声会話型おしゃべりAIアプリ」が公開され、使用が広く始まっています(*1)。

このアプリは12歳以上が対象で、「名前」「声の種類・テンポ」「アイコン」を設定することができ、主に「おしゃべり相手」として提供されています。高齢者が使用することで認知症予防につなげる効果も期待されており、その応用に関する研究もなされているようです(*2)。

Cotomoは大人向けではありますが、生成AIと人間がおしゃべりした時、具体的にどのような問題が生じるのか観察し、考えるための題材になりそうです。そこで、著名人がCotomoを使用した動画がYouTubeでいくつも公開されていたので、私も視聴してみました。

■子ども向け対話型アプリについて考える

私自身がCotomoを試してもよかったのですが、公開されている動画を分析することで、読者の方々にもCotomoの性質を「客観的に」検証してもらえる、という利点がありました。

また著名人が使用した動画が複数個YouTubeに上げられていることから、現在、それなりに広く知られたアプリであることも想定されますので、その点からも、分析の対象として有用だと感じました。Cotomoは十二歳以上が対象ですが、本稿の分析はあくまで将来的にリリースされる可能性のある子ども向け対話型アプリについて考えるためのものです。

そもそも、私はおしゃべりアプリに対して批判的な意見を持っていますので、私がCotomoを使用してもバイアスのかかった判断をしてしまうことが予期されました。しかし、動画を基にすれば、生成AIに対して必ずしも批判的な意見を持っていない人々がおしゃべりアプリと接した時の反応を観察できると考えたのです。

というわけで、本稿の分析は、具体例としてお笑い芸人さまぁ〜ずによる『【凄すぎAIとトーク】今話題のcotomoにビックリ!普通に話せる‼』を題材としました(*3)。さまぁ〜ずは、三村(みむら)マサカズさんと大竹(おおたけ)一樹(かずき)さんによるお笑いコンビです。

生成AIと人間言語の重要な違い

議論を始める前に明言しておきますが、本稿の分析はCotomoやさまぁ〜ずさんへの批判を意図するものではありません(正直に言えば、個人的にさまぁ〜ずが好きだからこそ、他の数ある動画の中から、検証の対象とさせて頂いたという側面があります)。あくまで、動画の分析を通して、生成AIをおしゃべりアプリに搭載した場合、具体的にどのような問題が生じうるのかを考察した、ということです。

本書でこれまでにも何回か強調してきましたが、人間言語生成AIの重要な相違点の一つが、前者は「音」から学ぶのに対して、後者は「文字」を訓練データとする、という点です。

生成AIには音声読み上げの機能がついていることが多いので、この点が忘れられがちですが、今回の動画を視聴して、改めてこの問題が浮かびあがってきました。

まず、はっきりとこの問題を示しているのが、Cotomoによる「さまぁ〜ずの大竹さんの相方はミツムラさん」という発言です。実際の「三村」という漢字の読みは「みむら」なのですが、Cotomoは「ミツムラ」という読みをあててしまったのです。人間でも読み間違いはしますから、これだけでは致命的な問題とまでは言えません。が、三村さん自身が何度も「みむら」と修正を試みても、Cotomoはそれを理解できず「ミツムラ」と呼び続けていました。

写真=時事通信フォト
始球式に参加したお笑いコンビ「さまぁ〜ず」の三村マサカズさん(左)と大竹一樹さん=2015年5月12日、東京ドーム - 写真=時事通信フォト

■AIの漢字の「読み間違い」の実例

また、似たような例として「人気(ひとけ)のないところ」を「にんきのないところ」と間違えて読むシーンもありました。続編の動画においては、「緑道」を「みどりどう」、「渡部」を「わたべ」と読むべきところを「わたなべ」と読んでしまっていました(*4)。

これらの「読み間違い」は、芸人さんの動画の中では「面白い」で済むのですが、このような不正確な情報が未就学児に与えられ、しかも、その間違いが容易に修正されない、ということを考えると、やはり怖い気がします。既に漢字の読みを学んでいる大人は、これらを間違いと判断できますが、未就学児には判断できません。

次に、生成AIが持つ重大な欠点として「ハルシネーション」という現象が前々から指摘されていることを以前の回で論じました。これは生成AIが、ありもしない情報を堂々とでっちあげてしまう現象です。

実際に、検証した動画でもハルシネーションが頻繁に起こっていました。例えば、「さまぁ〜ずのどっちが好き?」という質問に対して「二人とも好きだけど、大竹さんのほうがちょっと先輩だから頼りになる」と返答しています。しかし、さまぁ〜ずは高校の同級生であり、「大竹さんのほうが先輩」という事実はありません。むしろ、誕生日でいうと、三村さんのほうが半年ほど早いようです。

■笑えないAIのハルシネーション

同じように「さまぁ〜ずの知ってる番組ある?」という質問に対して、Cotomoが「大竹さんは『所さんの学校』とか」と返答する場面があるのですが、大竹さんが「所さんの学校では教えてくれないそこんトコロ!」に出演したという事実はなく、大竹さんが「『所さんの学校』、まだ伺ってないんですよ」と苦笑するシーンが見受けられました。また「世界の村で発見」(正式名称は「世界の村で発見!こんなところに日本人」)にもさまぁ〜ずが出演しているという発言があったのですが、これも本人たちによって否定されています。

動画によると、ここまでのCotomoの使用時間は十分ほどですが、この短い間に、少なくとも三回ハルシネーションが起きています。これはあまり安心できる数字ではありません。

動画では、これらのハルシネーションの例が「笑いの種」として扱われています。前提知識がある大人が使った場合は確かに「Cotomoの勘違い」で済むかもしれません。ただ、使用者が未就学児であった場合、「勘違い」と判断する能力はまだ育っていないわけですから、やはりハルシネーションは心配の種です。

■「意味」と「意図」が異なる日常会話

人間が言葉で相手に何かを伝えるとき、その文の「意味」と「意図」が異なる場合があります。例えば、友人と食事をしていて、私の横にお茶が置いてあるとしましょう。その友人が「お茶ある?」と発した時、その文の「意味」は「お茶は存在しますか?」という「疑問」ですが、この場合の本当の「意図」は「お茶を取ってください」という「依頼」でしょう。

そもそも友人にもお茶は見えているので、「存在するか否か」を聞く必要はありません。その上で、「お茶ある?」と聞くということは、本当の意図は別にあることになります。このような例は、人間同士のやり取りでは日常茶飯事です。

しかし、Cotomoには本当の意図が伝わっていないと思われる場面がありました。以下のやり取りを考えてみましょう。

Cotomo:大竹さんの名前の由来を教えてくれる?
大竹:名字だからね。
Cotomo:花の名前の由来のある名字なんだね。
大竹:まだ言ってないんだけど。

■意図も空気も読めないおしゃべりAI

大竹さんが「名字だからね」と発した際、その「意図」は「名前だったら由来があるかもしれないけど、大竹は名字だから由来なんてないよ」というものでしょう。

川原繁人『言語学者、生成AIを危ぶむ 子どもにとって毒か薬か』(朝日新書)

しかし、その「意図」を読み取れず、Cotomoは、おそらく「竹」→「植物」→「花」という連想から、「花の名前の由来のある名字なんだね」と決めつけてしまいます。それに対する大竹さんの反応が「まだ言ってないんだけど」です。

AIに「意図」を伝えるのは、難しいことだと考えられます。人間の意図をAIに理解させることの難しさに関しては、川添愛さんによる『言語学バーリ・トゥード』(2021年、東京大学出版会)がとても参考になります。

ただ、人間同士のやり取りの中では、実際の「意図」が文字通りの「意味」と異なることが少なくないことを考えると、これはおしゃべりアプリの大きな課題点になると感じます。子どもたちが自分の「意図」がおしゃべりアプリに伝わらずに戸惑ってしまうことも容易に想像がつきます。

*1 https://cotomo.ai/
*2 https://www.idac.tohoku.ac.jp/site_ja/news/20183/
*3 https://www.youtube.com/watch?v=PCRhapo7UW0
*4 https://www.youtube.com/watch?v=aZNBSSDzTqs

----------
川原 繁人(かわはら・しげと)
慶應義塾大学 言語文化研究所教授
1980年東京生まれ。1998年、国際基督教大学入学。2002年、マサチューセッツ大学言語学科大学院入学。2007年、同大学院より博士号取得(言語学)。卒業後、ラトガーズ大学にて教鞭を執りながら、音声研究所を立ち上げる。2013年より慶應義塾大学言語文化研究所に移籍。現在、教授。専門は音声学、音韻論、一般言語学。著作『音とことばのふしぎな世界』(岩波科学ライブラリー)、『「あ」は「い」より大きい!?』(ひつじ書房)、『音声学者、娘とことばの不思議に飛び込む』(朝日出版社)他。複数の国際雑誌の編集責任者を歴任。
----------

(慶應義塾大学 言語文化研究所教授 川原 繁人)