【西田宗千佳連載】発表するも炎上、Googleの新AI「Gemini」とは

2023年12月31日 11時30分

GetNavi web

みんなの感想は？

Vol.134-1

本連載では、ジャーナリスト・西田宗千佳氏がデジタル業界の最新動向をレポートする。今回のテーマはGoogleが発表した生成AI「Gemini」。同社が生成AIにおいて巻き返しを図るために開発した新たな技術の実力を探る。

今月の注目アイテム

Google

Gemini

複合的な学習により生成AIの能力を拡大

12月6日（アメリカ時間）、Googleは、新しい生成AIである「Gemini（ジェミニ）」を発表した。

その能力は凄まじい。最大の特徴は、文章だけでなく絵や音など多数の要素を理解して答える「マルチモーダル性」にある。従来、生成AIと言えば、テキストを入力することで回答を得るものがほとんど。画像を理解するものも増えてはきたが、補助的な要素だった。

だがGeminiは、ゼロから学習を構築する段階で、テキスト情報だけでなく画像や音声などもあわせて、複合的な学習が行なわれている。だから、「手書きのテストを読んで採点し、間違った部分がどこかを解説する」ことや「2つの自動車の絵を見てどちらが空力的に有利か」を判断したりできる。

Googleは、Geminiで最も規模の大きなモデルである「Gemini Ultra」を使った場合、「主要な32のベンチマークのうち、30で競合を超える」「57科目を組み合わせた専門知識を図るテストで、人間の専門家を上回る」とその能力を誇示する。

同社は2023年に吹き荒れた「生成AIの嵐」のなかで、OpenAIのGPT-4に先手を取られ、ずっと後手に回りっぱなしだ。AI開発といえばGoogle……というイメージも強かったので、これは同社にとって忸怩たるものがあっただろう。

Geminiのデモビデオが公開されると、“これまでの生成AI のイメージとは違う”“次の段階にGoogleが進んだ”とネットでは絶賛の嵐が巻き起こった。

マルチモーダル性はまだ非公開のまま

だが、その時間も短かった。

翌日になって、デモビデオが編集されたものであり、ビデオで示されたままの素早く賢い反応が“いま実現できる”わけではない、と報道されたからだ。「結局はフェイクなのか」と多くの人は考え、落胆した。

これはGoogleの取った手法が悪かった、と筆者も考える。

実のところ、ビデオの冒頭には“反応など画像をキャプチャしたもので、リアクションのなかから気に入ったものを選んでいる”と書かれていた。そのため、ビデオは編集されたものであると認識はできたし、反応の素早さなどは実際のものとは異なるだろう……と予測できたわけだが、結局Googleは、ビデオを“うまく作りすぎて失敗”したのだ。

逆に言えば、Googleはそのくらい焦っており、強く優位性を示したいと考えていたのだ。では、Geminiの優位性は完全に偽物なのか？

おそらくそうではない。Geminiはまだ開発途上であることが公表されている。もっとも高性能な「Ultra」は2024年になってからの公開とされており、2023年じゅうに使えるのは「Pro」のみ。こちらは速度と賢さのバランスが良好なもの、とされているが、性能はGPT-3.5相当という。しかも最大の特徴であるマルチモーダル性については、まだ全容が一般向けに公開されていない。

Googleがビデオで示したのは、2024年春以降に実現する可能性があるGeminiの姿だった。

では、Geminiは実際どのようなものになるのか？その将来はスマホにも大きな変化をもたらすことになる。それがどんなものになるのかは、次回以降解説していく。

週刊GetNavi、バックナンバーはこちら