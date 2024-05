グーグル(Google)は、開発者向けイベント「Google I/O」で、開発中の「Project Astra」のプロトタイプを披露した。

ユニバーサルAIエージェント「Project Astra」

「Project Astra」は、「毎日の生活を助ける、ユニバーサルAIエージェント」とされ、スマートフォンのカメラやマイクを通じて現実世界を認識し、ユーザーと対話型でやりとりできる。

デモでは、スマートフォンのカメラをオフィスの中でかざして歩き回りながら、「音が出るものを見つけたら教えて」と言うと、ディスプレイ脇にあるスピーカーがカメラに映るとすぐに「スピーカーを見つけました、スピーカーからは音がで出ます」と応答した。

さらに、スピーカーの上部にあるツイーターについて画面上で矢印で示し、「スピーカーのこの部分は、何て言うの?」と質問すると「これは、ツイーターで、高音を再生します」と瞬時に回答した。

スピーカーを発見

スピーカーのこれは何?

デスクの上にあるクレヨンをカメラに映し、「これについて、初めの音を合わせた文を作って」と言うと、「Creative crayons color cheerfully.They certainly craft colorful creations.」(楽しくクリエイティブなクレヨンの色、クレヨンはきっとカラフルな作品を作るでしょう)と、AIがクレヨンを認識した上で、頭韻法を用いた文を生成した。

ディスプレイに映るプログラムのコードにカメラを向け「この部分は、何をするコード?」と質問すると、「このコードは、AES-CBCアルゴリズムを使った、暗号化と複合化に関する機能です。」と、コードの意味を理解した上で返答をしている。

プログラミングコードから機能を理解する

窓の外を映して「私はいま、どこにいるでしょう?」と尋ねると、「ロンドンのキングス・クロスエリアです。鉄道の駅や交通の便が良いことで知られています。」と回答した。

窓の外の景色から、居場所を推測

メガネに関する特別な質問をせずに、「私のメガネ(Google Glass)はどこにあるか覚えてる?」と聞くと、「赤いリンゴの側にあります。」と、カメラに映りこんだメガネの位置を理解・記憶した上で返答した。

「メガネはどこ?」→「赤いリンゴの隣です」

Gogole Glassを装着し、ホワイトボードに手書きされたネットワーク構成図を映して「システムを高速化するには、ここに何を追加したらよい?」と質問すると、「サーバーとデーターベースの間にキャッシュを追加する。」と回答した。

「このシステムを高速化するには?」

最後に、虎のぬいぐるみを犬(ゴールデンレトリバー)の側に添えて、「このデュオバンドに名前をつけて」と言うと、「Golden Stripes(ゴールデンストライプス)」と、即興でバンド名を名付けた。

「このデュオにバンド名をつけて」

一連のデモ動画は、リテイク(再撮影)なしのいわゆる一発撮りで撮影されたという。これらの機能の一部は、「2024年後半にGemini」アプリなどGoogleの製品に搭載される。

Project Astra is a prototype from @GoogleDeepMind exploring how a universal AI agent can be truly helpful in everyday life. Watch our prototype in action in two parts, each captured in a single take, in real time ↓ #GoogleIO pic.twitter.com/uMEjIJpsjO