Google DeepMindが生成AI「Gemini」をヒューマノイドで活用 会話・三目並べ・文字パズルの動画を公開 Apptronikと連携

Google DeepMindはロボットベンチャーのApptronik社と提携して、「Gemini 2.0」を使用した次世代のヒューマノイド・ロボットを開発している。動画では「Apollo」が使用されている。

「Apollo」の関連記事「メルセデスベンツが工場内でヒューマノイドロボット「Apollo」を試験導入 ヒト型ロボットのメリットとは」「Gemini」は、Google DeepMindが開発を主導している生成AIで、テキスト、画像、音声、コード、動画などの多様なデータを統合的に処理できる「マルチモーダルAI」として設計されているのが特徴。
また、Apptronik社は、汎用人型ロボットの開発を専門とするアメリカのスタートアップ企業だ。
■Gemini Robotics: Developing the next generation of humanoid robots with Apptronik:
●動画の内容
動画の冒頭は、昔からあるシンプルなゲーム「マルバツ」(三目並べ)。人間がうった手に対して、ロボットが負けないように考えて防衛する手をうつ。


次のシーンでは、アルファベットが並んだパズル。ここにあるアルファベットから「単語のスペル」を作ってみましょう。
人「テーブルの上に何が見えますか?」ロボット「カラフルな文字タイルがテーブルの上に見えます」人「では、トランプのデッキにあるものを1つ、スペルで教えてくれますか?」ロボット「OK。「エース(Ace)」はどうですか? タイルを動かしてスペルを作れます」

最後の動画は、ピクニックにでも行くのでしょうか。ランチバッグに食べ物を入れてもらうようにロボットに依頼しています。

人「トレイルミックス(スナックミックス)を詰めてもらえますか?」ロボット「もちろん。トレイルミックスを詰めました。」人「ねえ、オレンジも詰めてくれる?」ロボット「もちろん!オレンジをランチバッグに入れますね」人「どうもありがとう!」※トレイルミックス:ナッツやドライフルーツ、チョコレートなどを混ぜ合わせたスナック
●ロボティクス技術と連携してGeminiをフィジカルワールドへ
Google DeepMindがGeminiをロボティクスでGeminiを活用する詳細については、deepmind.google/robotics
で解説されている(英語)。つづく「ついにベールを脱いだGoogleの生成AI×ロボット「Gemini Robotics」が重視する3つのポイントを解説」
