Vol.134-1

本連載では、ジャーナリスト・西田宗千佳氏がデジタル業界の最新動向をレポートする。今回のテーマはGoogleが発表した生成AI「Gemini」。同社が生成AIにおいて巻き返しを図るために開発した新たな技術の実力を探る。

 

今月の注目アイテム

Google

Gemini

↑Googleがマルチモーダルとしてゼロから構築した新しい生成AI。テキスト、画像、音声、動画、コードなどさまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることが可能だ。同社のGoogle Pixelにも採用予定。

 

複合的な学習により生成AIの能力を拡大

12月6日(アメリカ時間)、Googleは、新しい生成AIである「Gemini(ジェミニ)」を発表した。

 

その能力は凄まじい。最大の特徴は、文章だけでなく絵や音など多数の要素を理解して答える「マルチモーダル性」にある。従来、生成AIと言えば、テキストを入力することで回答を得るものがほとんど。画像を理解するものも増えてはきたが、補助的な要素だった。

 

だがGeminiは、ゼロから学習を構築する段階で、テキスト情報だけでなく画像や音声などもあわせて、複合的な学習が行なわれている。だから、「手書きのテストを読んで採点し、間違った部分がどこかを解説する」ことや「2つの自動車の絵を見てどちらが空力的に有利か」を判断したりできる。

 

Googleは、Geminiで最も規模の大きなモデルである「Gemini Ultra」を使った場合、「主要な32のベンチマークのうち、30で競合を超える」「57科目を組み合わせた専門知識を図るテストで、人間の専門家を上回る」とその能力を誇示する。

 

同社は2023年に吹き荒れた「生成AIの嵐」のなかで、OpenAIのGPT-4に先手を取られ、ずっと後手に回りっぱなしだ。AI開発といえばGoogle……というイメージも強かったので、これは同社にとって忸怩たるものがあっただろう。

 

Geminiのデモビデオが公開されると、“これまでの生成AI のイメージとは違う”“次の段階にGoogleが進んだ”とネットでは絶賛の嵐が巻き起こった。

 

マルチモーダル性はまだ非公開のまま

だが、その時間も短かった。

 

翌日になって、デモビデオが編集されたものであり、ビデオで示されたままの素早く賢い反応が“いま実現できる”わけではない、と報道されたからだ。「結局はフェイクなのか」と多くの人は考え、落胆した。

 

これはGoogleの取った手法が悪かった、と筆者も考える。

 

実のところ、ビデオの冒頭には“反応など画像をキャプチャしたもので、リアクションのなかから気に入ったものを選んでいる”と書かれていた。そのため、ビデオは編集されたものであると認識はできたし、反応の素早さなどは実際のものとは異なるだろう……と予測できたわけだが、結局Googleは、ビデオを“うまく作りすぎて失敗”したのだ。

 

逆に言えば、Googleはそのくらい焦っており、強く優位性を示したいと考えていたのだ。では、Geminiの優位性は完全に偽物なのか?

 

おそらくそうではない。Geminiはまだ開発途上であることが公表されている。もっとも高性能な「Ultra」は2024年になってからの公開とされており、2023年じゅうに使えるのは「Pro」のみ。こちらは速度と賢さのバランスが良好なもの、とされているが、性能はGPT-3.5相当という。しかも最大の特徴であるマルチモーダル性については、まだ全容が一般向けに公開されていない。

 

Googleがビデオで示したのは、2024年春以降に実現する可能性があるGeminiの姿だった。

 

では、Geminiは実際どのようなものになるのか? その将来はスマホにも大きな変化をもたらすことになる。それがどんなものになるのかは、次回以降解説していく。

 

週刊GetNavi、バックナンバーはこちら