文字・音楽・画像を同時に処理する「マルチモーダルAI」の性能がよく分かるGoogleの「Gemini」ハウツー動画11種を解説
2023年12月6日、Googleが文字・音楽・画像を同時に処理するマルチモーダルAI「Gemini」をリリースしました。リリースに合わせてGeminiの使い方解説動画がアップロードされていたので確認してみました。
How it’s Made: Interacting with Gemini through multimodal prompting - Google for Developers
Everything to know about Gemini, Google’s new AI model
https://blog.google/technology/ai/gemini-collection/
◆目次
01:画像の共通点を見つける
02:マルチモーダルAIとしての実力
03:画像をコードに変換
04:絵文字キッチン
05:数学と物理学の推論
06:プログラミング能力
07:服・所持品に関する質問
08:音声認識
09:映画タイトルの推測
10:ユーザーのアイデアの推論
11:科学文献からデータを抽出
「Gemini」が何たるかは以下の記事で解説しています。なお、GeminiはチャットAI「Bard」で誰でも使用可能。
文字・音声・画像を同時に処理して人間以上に自然なやりとりができるGPT-4を超える性能のマルチモーダルAI「Gemini」がリリースされる - GIGAZINE
リリースに合わせ、GoogleはGeminiの使い方動画を公開しました。
◆01:画像の共通点を見つける
Testing Gemini: Finding connections - YouTube
ボスジェス礼拝堂の写真と葛飾北斎の「神奈川沖浪裏」を見せ、「2つの画像の共通点を見つけてください」とGeminiに頼んでみます。
Geminiは「曲線的で有機的。2枚目の画像(北斎)はより流動的」と返しました。
次はゴルフボールと月の比較です。ここでは共通点に加え、両者の歴史についても尋ねてみます。
すると、Geminiは「1971年、アポロ14号の乗組員は月面で2つのゴルフボールを打ちました」と返しました。Geminiは画像が何であるかを読み取るだけでなく、画像についての解説もできるということです。
最後は縞柄の服とシマウマの比較。「どちらがいい感じに着こなしていますか?」との質問も付け加えます。
Geminiは「シマウマは何百万年もしま模様を着ているので、答えはシマウマです」との答えを返しました。
◆02:マルチモーダルAIとしての実力
Hands-on with Gemini: Interacting with multimodal AI - YouTube
線を書いて「何が見えますか?」と音声で質問すると「くねくねした線が見えます」とGeminiが返答しました。
線を描き足してもう一度聞いてみると「私には鳥のように見えます」と返事が変化。
水の線を入れるとアヒルだと答えてくれました。
アヒルを青く塗っていくとGeminiがアヒルの色は青くないことを教えてくれます。
そこでおもちゃのアヒルを取り出し、「本当かな?」と問いかけ。
Geminiは「青いアヒルは私が思っていたよりも一般的であるようですね」と見解を改めました。
素材を推測するように頼むと「ゴムかプラスチックに見えます」とのこと。
さらにアヒルを押してキーキーと鳴らしてみます。
Geminiはその音を聞いて「キーキーと鳴くなら浮くはずです!」と答え、水よりも密度が低いゴム製だと結論づけました。
次は「別の言語でこれをどう言うか教えてくれる?いくつか例を挙げてみて」と質問。Geminiはスペイン語、フランス語、韓国語、日本語、中国語の例を返します。次に中国語でどう発音するかを聞いてみます。
するとGeminiは中国語に声調があることを解説し、中国語でどう発音するかを詳しく解説しました。
次は世界地図の上にアヒルを置きます。これだけで、Geminiは「アヒルが海の上にいる」と解釈し、「アヒルは海の真ん中にいて、休んだり餌を見つけたりできる陸地が近くにありません」と発言しました。
さらに「今見えているものからゲームを考えて」とお願いしてみます。
Geminiは国当てゲームを提案し、早速1問目を出題してきました。「カンガルー、コアラ、グレートバリアリーフの故郷」と3つのヒントをくれます。
オーストラリアを指さすと正解と言ってくれました。
2問目。「サッカーが盛んで、男子ワールドカップで史上最多の優勝数を誇る」とのヒントをくれます。
ブラジルを指さすと「ピンポン」と効果音を鳴らしてくれました。
次はコップの下にある紙のボールを見つけるゲームを開始。
コップの下にボールを入れるとまだ何も言っていないのに「コップの下にある紙のボールを見つけさせようとしていますね」と推測しました。
コップを素早く操作して惑わせようとしてみましたが、Geminiは正しく「左側のコップです」と答えます。
今度は画面に向かって「じゃんけん」のジェスチャーをするだけで、Geminiは「何をやっているのかわかりますよ。じゃんけんですね?」と回答。
手でちょうちょを作り「何に見える?」と質問してみます。
「チョウの羽に見えるように指を広げています」と回答するGemini。
次も「大きな耳と吠えている口。犬ですね」と回答。
コインを手のひらに載せてくるっとひっくり返す、ただこれだけの動作で、Geminiは「コインは右手の下にあるはずです」と答えます。
しかし人間は一枚上手で、右手を開いて「それはどうかな……?」と発言。
Geminiも負けじと「コインは左手にあるはずです。手品を使ってコインが消えたように見せていますね」と返しました。
今度はコインとクッキーを並べて置いてみます。人間が何か言う前に、Geminiは「どちらも丸くて平らです」とコメント。
コインをミカンに置き換えて「これは?」と質問。すると、Geminiは「どちらも食べ物です。ミカンはクッキーより健康的です」と答えました。
今度はクッキーをハンドスピナーに置き換えました。Geminiは「かんきつ類には心を落ち着かせる作用がありますが、ハンドスピナーも同じです」と発言。
さらにミカンをルービックキューブに置換。Geminiは「どちらも人気のあるおもちゃで、子どもだけでなく大人にも楽しまれています」と回答します。一連の流れで人間は何も命令・ヒントを与えておらず、Geminiが物を「見た」だけでコメントを残しているのがここでのポイント。
毛糸を2つ見せて作品例を頼んでみます。緑とピンクの毛糸だと「ドラゴンフルーツ」など3つの例が提案されました。
毛糸の色に合わせて作品例の画像を生成してくれます。
分かれ道のイラストを用意し「どっちに行くべき?」と聞くと、Geminiは状況を正確に推測して「左に行くべきです」と答えました。
点と番号だけのイラストを見せると「これはカニの絵です」とのこと。
番号順に点と点を線で結んでいくと見事カニの絵が完成しました。
3つの星の絵を見せて「これは正しい順番?」と聞くと、「いいえ、正しい順序は、太陽、地球、土星です」と回答。
車の形から「より速い車」を当てることもできます。
「どっちのジェットコースターの方が楽しそうか?」という質問にも答えることができます。
「適切なセリフを考えて」と言うと「キャー!」と良い感じのセリフを生成してくれました。
ギターのイラストを見せるとアコースティックギターの音楽を流してくれます。
アンプをつなぐとエレキギターの音楽に変化。
ヤシのイラストも加えるとビーチらしいウクレレの音楽になりました。
「このシーンは何を再現しようとしているの?」という質問にも答えられます。
ムービーを一時停止して「この後どうなりそう?」と聞くと「10点満点の着地を決めるでしょう!」のように未来を推測できました。
最後に星座の絵を描いて「これは何に見える?」と質問。Geminiは「双子座(Gemini)のシンプルな線画です。双子座の美しさをうまく形にしましたね」と答えました。
◆03:画像をコードに変換
Testing Gemini: Turning images into code - YouTube
画像をコードに変換する処理の実験映像です。まずは木の画像をGeminiに与え、「この画像をSVGに変換できますか?」と質問してみます。
Geiminiは「木の主要な形状を示した画像です」とのコメントとともに画像を1枚提示しました。
次はもう少し複雑なタスクです。GeminiにJavaScriptでインタラクティブなデモを作成できるか尋ねてみます。すると、Geminiは「フラクタルツリー」を提示しました。
スライドを動かしてインタラクティブに変形させることも可能。
もちろん、コードも提示してくれます。
◆04:絵文字キッチン
Testing Gemini: Emoji Kitchen - YouTube
Googleが提供する絵文字融合サービス「絵文字キッチン」をGeminiがどう扱うかを示したビデオです。まずは幽霊とアボカドを組み合わせてできた絵文字について「どの絵文字が組み合わさっているか分かりますか?」と尋ねてみます。
Geminiは正しく推測しました。
今度は絵文字がどのように見えるか尋ねてみると、Geminiは「幽霊ですが緑色で、大きな茶色の穴があります」と回答。緑色ではありませんが、茶色の穴があるのは間違いありません。
次は絵文字に名前とキャッチフレーズを付けるよう要求。Geminiはアボカドとゴーストを合わせた「アボガイスト:ワカモレの幽霊」というアイデアを提案しました。
ロボットとウサギを組み合わせた絵文字には「ロボバニー」と名付けています。
◆05:数学と物理学の推論
Gemini: Explaining reasoning in math and physics - YouTube
手書きの文書を提示するだけで、どこが間違っているのか、正しいのか、より詳しく説明するべき箇所はどこなのかをGeminiが回答してくれます。ここで「バツ」が付された箇所をクリックしてみます。
Geminiは、式は正しかったものの、高さの計算が間違っていたことを示しました。
高さは6メートルではなく50メートルが正しかったらしく、ここで「なんで50メートルになるの?」と聞いてみます。
すると、より詳細な解法を教えてくれました。
さらに、Geminiは今回間違えた計算に似た練習問題を作成することも可能です。
◆06:プログラミング能力
Gemini: Excelling at competitive programming - YouTube
GeminiはPython、Java、C++、Goなどのプログラミング言語に対応しています。
アイデアを提示するだけで、アプリやウェブサイトのプロトタイプを作成することが可能。今回は「電車を発見する位置情報ウェブアプリ」の作成を依頼。質問から1分以内に、ちゃんと動作するプロトタイプを作成してくれます。コードは完璧ではないものの、草案として使えるようになっているとのこと。
Geminiは競技プログラミングにも優れていて、競技プログラミングAI「AlphaCode」と比較し、Geminiに基づいて設計された「AlphaCode2」は競技プログラミング参加者の85%よりも優れたパフォーマンスを示したとのこと。Geminiのプログラミング能力は開発者がプロパティを指定するだけで能力が格段に向上するため、プログラマーはこれを実施すべきだとGoogleチームは述べました。
◆07:服・所持品に関する質問
Testing Gemini: Fit check - YouTube
人間が「この服は何をするのに最適ですか?」と質問。
Geminiは「ツンドラで暖かく過ごすのに最適です」と回答。
宇宙服のヘルメットをかぶせてみます。
すると「銀河間旅行」と回答します。
サックスを持たせて「これは?」と質問。
「誰も行ったことのない場所に行き、大胆にジャズを演奏するのに最適」との回答でした。
◆08:音声認識
Gemini: Processing and understanding raw audio - YouTube
通常、大規模言語モデルが音声を扱う場合、音声を取得し、それを音声認識システムを通して処理してテキストに変換し、そのテキストを理解できる別のモデルに適合させます。ただし。これを行うと音声や発音などの多くのニュアンスが失われてしまうそうです。一方、Geminiはネイティブのマルチモーダル機能を備えているため、生のオーディオ信号を処理できるとのこと。
中国語の例を見てみます。まずは「旧暦1月のことを中国語で言うとき、どちらの発音が正しいですか?」と話し、声調の違う2つの言葉を発した音声をGeminiに聞かせます。すると、Geminiが「ひとつめめの発音が正しいです。最初の文字は第一声で発音されます」と返します。Geminiはふたつの発音を区別し、どちらが正しいのかを確認することができます。
今度はフランス語の音声を聞かせて「英語で要約して」と要求します。これにもGeminiは正しく英語で答えます。Geminiはただの文字起こしモデルではなく、話の内容を詳細に理解できるモデルとなっています。
さらに、ただ音声だけを処理するだけでなく、「マルチモーダル」の名の通り音声・画像など複数のコンテンツを同列に処理することが可能です。例えば以下の画像を見せて「この材料でオムレツを作るにはまずどうすればいい?」と尋ねてみると、Geminiは「まずボウルに卵を入れ、泡立てます」と回答しました。
続いて調理過程の写真を見せて「もう準備できてると思う?」と質問。すると、Geminiは「ほぼ準備できているようです。ひっくり返して反対側を焼いても良いでしょう」と答えました。
さらにその後の写真を見せると「もういいでしょう。火から下ろしてお召し上がりください」と回答しました。
◆09:映画タイトルの推測
Testing Gemini: Guess the movie - YouTube
キーワードとなる画像を見せて映画の名前を推測するというゲームが行われています。まずは目玉焼きとパンケーキの画像、クラブの画像を見せ、「映画の名前を推測してください」と質問します。
すると、Geminiは「ブレックファスト・クラブ」と回答しました。朝食(ブレックファスト)+クラブなので正解。
今度は朝食と指輪。Geminiは「ティファニーで朝食を」と正答しました。
ハサミ禁止と指輪で「アンカット・ダイヤモンド」
「ゴールドフィンガー」
「ムーンライズ・キングダム」
Forest+G+(Bump−B)で「フォレスト・ガンプ(Forrest Gump)」などなど。「絵から映画タイトルを連想する」という遊びもGeminiはなんなくこなします。
◆10:ユーザーのアイデアの推論
Gemini: Reasoning about user intent to generate bespoke experiences - YouTube
この動画では、Geminiがユーザーの意図を理解し、推論する様子が解説されています。まずは人間が「娘の誕生日パーティーのアイデア」についてGeminiに質問すると、Geminiは「彼女は何に興味がありますか?」と回答し、ユーザーの意図をさらに深掘りしようとします。
それに対して人間が「動物が好き」「屋外で何かしたい」といった情報を付け加えます。この時点でGeminiはイラストを織り交ぜた「ベルチャイム」と呼ばれるインターフェイスを作成し、視覚的に分かりやすくアイデアを説明しました。
イラストを示すまでのGeminiの思考も説明されています。まず、人間の質問を受けたGeminiは「テキストだけでいいのか、それとも他のUIも必要なのか」と思考。そして「複雑なタスクなので、多くの情報を整理して表示する必要がある」と判断し、上記のようなインターフェイスを提示しました。
次に、Geminiは自分自身に十分な知識があるかどうかを理解しようとします。今回の場合、どんなパーティーを望んでいるのか、娘は何に興味があるのかについて最初は知らされませんでした。そのため、Geminiは「アイデアを提示するのに十分な知識がない」と判断し、その情報を求めて「何に興味がありますか」と質問したのです。
その上で、「人間はあらゆるオプションから選択したいと考えるだろう」と考察し、人間が色んな選択肢からアイデアを選べるようにするために最適なインターフェイスを考案。そうして完成したのが、上記で提示された「ベルチャイム」でした。つまり、人間がもっと違った質問をしていれば、まったく違ったインターフェイスが提示されていた可能性もあったというわけです。
◆11:科学文献からデータを抽出
Gemini: Unlocking insights in scientific literature - YouTube
科学者は、何千、何万とある科学文献から、必要かつ重要な情報だけを抽出して活用するという作業を手作業で行わなければならないことがあります。
今回実施された処理は、遺伝学に関する数十万もの論文から必要なデータだけを抜き出すというもの。まず、科学者はGeminiに「次の論文のタイトルと要約を読んで、この論文が特定のヒト疾患に対する変異体の検証について述べているかどうかを教えてください」といったプロンプトを与えました。
Geminiは必要な論文とそうでない論文をより分け、重要なデータを抽出することに成功。さらに注釈を付け、Geminiが論文のどこで情報を見つけたのかも正確に分かるようになったそうです。手作業であれば何時間もかかる作業を、Geminiは「昼休みの間」にこなすことができたとのこと。
さらに、取得したデータセットを元にGeminiに画像の作成を依頼。2019年までのデータを示したグラフを与えて書き直すように指示すると、Geminiは取得した2019年以降のデータを元に新たなグラフを作図しました。Googleチームは「生物学だけでなく、法律や金融など、大規模なデータセットを扱うあらゆる分野で利用できます」と説明しました。