Googleが2023年12月6日に発表した大規模言語モデル(LLM)の「Gemini」は、文字だけではなく画像や映像なども理解してユーザーとやり取りができるマルチモーダリティが大きな特徴で、Googleが公開したGeminiの性能を示すデモムービーは大きな話題となりました。しかし、このムービーで示されたGeminiのデモはフェイクではないかと指摘されています。

Google’s best Gemini demo was faked | TechCrunch

https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/

フェイクだと指摘されたデモムービーが以下。

Hands-on with Gemini: Interacting with multimodal AI - YouTube

Bloombergの記者であるパーミー・オルソン氏は「広報担当者によると、このムービーはリアルタイムでも音声でもありませんでした。Geminiには映像の静止画を提示してプロンプトを入力し、映像に字幕でプロンプトを表示したそうです」と述べています。



ムービーでは、映像や画像を見てそのままGeminiが応答をしているように見えますが、実際はGeminiは映像を見ながらリアルタイムで判断して回答していたのではなく、あくまでも映像の静止画を見た上でテキストプロンプトを使ってやり取りしていたというわけです。ただし、この入力したテキストプロンプトについて、Googleは以下の開発者向けブログで明らかにしています。

How it’s Made: Interacting with Gemini through multimodal prompting - Google for Developers

https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

ムービーの2分45秒辺りでは、Geminiとじゃんけんをするシーンがあります。



このシーンではGeminiが手の形と動きを見て「じゃんけんですね!」と気付いたように見せていますが、実際はパー・グー・チョキの3種類の画像を読み込ませた上で「What do you think I'm doing? Hint: it's a game.(私は何をしているでしょうか? ヒント:これはゲームです)」とプロンプトで尋ねていたというわけです。



また、青いゴムのアヒルについてGeminiと会話する部分については開発者向けブログでは明らかにされておらず、IT系ニュースサイトのTechCrunchは不信感を示しています。



デモムービーのタイトルは「Hands-on with Gemini」となっていることから、まるでGeminiの実動作を示しているように誤解するタイトルになっているとTechCrunchは指摘。さらに「おそらくGoogle AIのデモは誇張されていると想定する必要があります。私であれば記事の見出しにこの映像は『捏造された』と書きます。最初は、この厳しい言葉が正当化されるのかどうかわかりませんでした」と述べており、実際の機能ではないものをデモムービーのように公開したGoogleに対して批判しています。

TechCrunchは「一見似ていますが、これは同じインタラクションであるように感じられません。一方は抽象的なアイデアをその場で捉えた直感的で言葉のない評価であり、もう一方は機能制限を示す、工学的でヒントの多い相互作用です。Geminiの場合は前者ではなく、後者でした」と指摘しています。

なお、TechCrunchによると、Google DeepMindの研究担当ヴァイスプレジデントであるオリオール・ヴィニャルス氏から記事公開後に「このムービーはGeminiで構築されるマルチモーダリティのユーザーエクスペリエンスがどのようなものになり得るかを示しています。私たちは開発者にインスピレーションを与えるためにこのムービーを作りました」というコメントが得られたそうです。