5月14日(アメリカ太平洋時間)に開催された「Google I/O」はAIにフォーカスした内容に(筆者撮影)

生成AIを軸とした、ビッグテックによる「AI開発競争」が第2幕を迎えた。

5月14日(アメリカ太平洋時間)にGoogleは、例年通り年次開発者会議「Google I/O 2024」を開催。今年は例年以上に「AI」にフォーカスした基調講演を行った。

一方でそれに先回りするように、5月13日にはOpenAIが同社の生成AI「GPT-4」の改良版にあたる「GPT-4o」を発表し、話題をさらった。

両社の発表には明確な共通点がある。

それは「画像・音声対応」と「即応性」だ。

こうした要素を両社が重視するのは、AIの活用が一般化するために必須のことだからである。

それはどういうことなのか、そして、この変化はスマートフォンなどにどのような変化をもたらすかを考えてみよう。

自然な対話を実現する「Project Astra」

Google I/Oでの発表の中でも、来場者が特にざわめいたのは「Project Astra」だった。

これがどのような技術であるかは、基調講演で公開されたデモのビデオを見るのが近道だ。

Project Astraデモ動画

スマートフォンのカメラで見たものがなにかを識別し、声での質問に、自然な音声で答える。ただ回答するだけではない。単に目の前の課題に答えるだけでなく、それまでに交わした会話の中で出てきたものを理解し、記憶し、その情報を使って質問に回答する。


Project Astraのデモ画面。カメラに映った内容に書き込みをしつつ音声で質問(筆者撮影)

Google I/Oの会場には限定的なものながら、デモを体験できる機会も用意されていた。筆者も体験してみたが、非常に印象的なものだった。

画面に線で絵を描き、「これはランドマークの1つ」とヒントを与えると、Astraは「ゴールデンゲートブリッジですね」と答える。

最初に黄色いバスのおもちゃを見せて「これはジョージという名前」と伝え、その後にいくつか別のおもちゃを見せつつ名前をつけたあと、「ジョージの色は?」と聞くと「黄色ですね」と答えてくる。

回答はスムーズで、人間との対話にかなり近い。知識を蓄えた生成AIや検索エンジンとも異なり、より人間のように多様な情報を使い、人間のような対話を実現するもの……という印象だ。

チャットボットから「マルチモーダル」へ

現在の生成AIは、命令を文章として与えて回答が文章で返ってくる「チャットボット型」のサービスが主流だ。しかし、それだけが生成AIの使い方というわけではない。

GoogleがProject Astraで目指すのは「将来のAIエージェント」だ。AIエージェントとは、人と対話しつつ人をサポートするソフトウェアのことだ。GoogleのAI開発部門「Google DeepMind」は、現在Googleが使っている生成AI技術である「Gemini」を応用しつつ、さらに新しい技術を組み込んで開発を進めている。

AIエージェントでは単に命令を音声で伝えるだけでなく、コミュニケーションが主体になって課題を解決することが重要になる。人間が目や耳から情報を得て、それを対話のために活用するのと同じように、AIエージェントも複数の情報を活用するのが望ましい。

こうした要素を俗に「マルチモーダル」と呼ぶ。GoogleはGeminiを「マルチモーダルが得意なAI」とアピールしてきた。Project Astraはその先にあるものだが、他にも広く活用している。

例えば、動画を撮影しながらそこに映っているものについて質問する「Ask with Video」や、写真を保存するサービスである「Googleフォト」の中から、文章で示したシチュエーションにあった写真を探し出す「Ask Photos」などの新機能がそれにあたる。

マルチモーダル性を備え、音声で対話する生成AIを持っているのはGoogleだけではない。

冒頭で述べたように、Google I/O開催の前日には、OpenAIが「GPT-4o」を発表している。こちらもマルチモーダル性の強化が特徴だ。そして、Project Astraと同じように、人間と話しているような対話を実現している。

OpenAIが狙っているのも、Googleと同様に「人と対話しながら使うサービス」だ。OpenAIが究極的に目指しているのは「汎用人工知能(Artificial General Intelligence、AGI)。AGIが実現されていくなら、人間をサポートするAIエージェントに使われるのは必然である。

AIが人と対話するには、マルチモーダル性とともに「即応性」も必須になる。質問への回答に何秒もかかるようでは会話にならないからだ。

GPT-4oにしてもProject Astraにしても、AIの反応は非常に素早い。GPT-4oはすでにChatGPTの有料版である「ChatGPT Plus」で利用可能になっている。筆者も使ってみたが、従来に比べとにかく回答までの待ち時間が短く驚かされた。

Googleも今回、素早くスムーズな対話に特化した「Gemini Live」や即応性とコストを改善した「Gemini 1.5 Flash」を発表している。

生成AIの評価点と言えば「賢さ」というイメージが強いかもしれないが、実際にはそれは正しくない。多くの人が利用するようになればなるほど、サービスの即応性は極めて重要な要素になってくる。反応が遅いと利用者が「離脱」してしまうからだ。

即応性の追求と競争は、生成AIが本格的に社会実装され、利用者が増えていく過程で必須の変化なのだ。

スマホとの連携がGoogleの強み

では、近い将来に登場するAIエージェントはどこで使われるのか?

まずはスマートフォンの中で使われることになるだろう。スマホにはカメラもマイクも内蔵されている。常に持っていることが多く、もっとも身近なコンピューターでもある。

現在もネットの大半はスマホから利用されているが、様々な日常的な情報を検索しつつ生活の助けとするなら、スマホの上に賢いAIが搭載され、それを活用する流れになるのは間違いない。

だとすれば、生成AIにはマルチモーダル性が必須であり、スマホへの搭載も必然ということになる。

生成AIの技術面ではOpenAIが先行していると言われるが、人々が実際に接するにはなんらかの機器が必要。GoogleはAndroidというOSを持っていて、スマホメーカーとの関係も密である分、OpenAIよりも有利な部分がある。

今回のGoogle I/Oで、同社のスンダー・ピチャイCEOは「The Era of Gemini(Geminiの時代)」という言葉を使った。Googleのあらゆるサービスの基盤にGeminiが使われていくことを示したものだ。その中核はもちろんAndroidへのGemini統合があり、将来的にはProject Astraの成果がある。Googleとして強調したいのはそこなのだろう。


Googleのスンダー・ピチャイCEOは「The Era of Gemini」と宣言(筆者撮影)

そこで気になるのは「もう1つのスマホOSメーカー」だ。

生成AIからスマートフォンで動くAIエージェントへと移行していくのが必然であるなら、アップルも同じことを考えるのも、また必然であろう。

アップルは現状、この種の技術に対する方向性を明確に示してはいない。6月には開発者会議「WWDC」を開催するため、そこでなにかが発表される可能性は高いだろう。アップルの提携先としてはいくつかの噂があるが、OpenAIやGoogleの施策との関係を想像すると、「アップルがどことなにをするのか」が見えてくるような気もするのだが……。

(西田 宗千佳 : フリージャーナリスト)