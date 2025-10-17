いまや生成AIについてのニュースを見ない日はないほど、世界中がAIブームに沸いている。そうした中にあって、AIは言語や画像にとどまらず、さらにLLM（大規模言語モデル）を超えて、より大規模でマルチモーダルな「基盤モデル」がいま注目されていることをご存じだろうか。

「基盤モデル」がロボットと結びつくことで、「みずからコードを書いて自分を制御するロボット」「未知の環境でも、試行錯誤して成果を出すロボット」などが実現するとあって、次に“AI×ロボット”の世界が主役になると期待されているわけだ。

そんなAIとロボティクスの最前線を知る二人による話題の書『基盤モデルとロボットの融合 マルチモーダルAIでロボットはどう変わるのか』から、基盤モデルの最新事情をお届けする。

みなさんはChatGPTやGeminiなどを日常的に利用していますか？

現在、多くの人が、何らかの形でこれら大規模言語モデル（LLM）と呼ばれる生成AIを利用していることでしょう。

翻訳・アイデア出し・相談・要約など、今や生成AIは生活に欠かせない存在となっています。

最初は言語しか使えなかったこれらのモデルも、しだいに画像や音声など、さまざまな情報を扱えるようになり、その可能性はますます広がっています。

そして、この大きな変化の波は、ロボットの分野にも押し寄せています。

これまでロボットには強く結びついてこなかった「言語」というモダリティ（情報の入出力）が、突如としてロボットの動作に組み込まれるようになりました。

言語をハブとして画像や音声などの情報が統合されることで、ロボットの認識能力やタスクの計画能力が飛躍的に向上し、これまでのロボットでは考えられなかったような新しい研究・開発のアプローチが可能になっています。

そして近い未来、より実用的な形でロボットが人間社会に溶け込んでいくことが強く期待されています。

この言語・画像・音声などのモダリティをすべて扱える大規模なモデルは「基盤モデル」と呼ばれ、現在のフィジカルAI分野の根幹となっています。

環境に左右されずにその場にふさわしいタスクをロボット自ら遂行してくれる

ロボットはこれまで、環境の認識や動作を人間が手作業で一つひとつプログラムとして記述し、それらを組み合わせることで多様なタスクを実現する方式が一般的でした。

例えば「リンゴをつかむ」というタスクを行うには、まず画像からリンゴを検出するための「認識器」をつくり、次にロボットやアームをリンゴの位置まで動かす経路を決める「計画器」をつくり、最後にその計画に基づいて関節やモーターに指令を送る「制御器」をつくる必要がありました（図左上）。

その後、深層学習の発展により、設定した報酬に基づいて学習を行う強化学習や、人間のデモンストレーションを利用する模倣学習など、認識から制御までを一気通貫（end-to-end）で行う手法が盛んに研究されています（図右上）。

そして現在、「基盤モデル」はこれまでの古典的な方法論を大きく揺るがし、代替すると同時に、強化学習や模倣学習といった技術と結びつくことで、ロボットシステムに大きな革新をもたらしています。

個別の対象や環境ごとにつくってきた認識器が、一つの基盤モデルですべて、まるっと置き換えられてしまう可能性があるのです（図左下）。

これは認識器だけでなく、計画器と制御器についても同様です。

LLMを用いることで、これまで研究されてきたさまざまな手法を大きく凌駕し、すべてを塗り替えつつあります。

そして、それらが個別に置き換わるばかりか、「認識器・計画器・制御器のすべての要素が、たった一つの基盤モデルに置き換わる」という可能性も現実味を帯びてきています（図右下）。

最終的には、ロボットを使いたい現場まで持っていき、やってほしいことを言葉で指示さえすれば、キッチンから建設現場にいたるまで、環境に左右されずにその場にふさわしいタスクをロボット自ら遂行してくれるようになるのです。

その実現に向けた基盤モデルの代表例として、RT-1やRT-2、RT-Xといったロボット用の基盤モデルがあります。

これは通称「ロボット基盤モデル」（あるいは、視覚言語行動（VLA）モデル）と呼ばれています。

RT-1は、タスクを行うための言語指示と、ロボット搭載のカメラからの画像を入力として、Transformer（ChatGPTなどと同じアーキテクチャ）を用いてロボットの行動を出力するモデルです。

RT-1のモデルの学習では、Google社が独自に開発したモバイルマニピュレータ13台を用い、17か月にわたり744種類のタスクに関する約13万エピソードのデータを収集し、学習に利用しました。

RT-1では、従来のように認識器・計画器・制御器を個別に設計しなくても、言語指示と取得した画像からロボットの行動を直接生成できます。

RT-2は、RT-1を発展させ、視覚言語モデルをベースとして用いることで、パラメータ数と性能を大幅に拡張したモデルです。

このロボットは、筆者松嶋が開発・研究しているモバイルマニピュレータHSR（Human Support Robot）です。HSRの動作データを収集し、ロボット基盤モデルの学習を進めています。家庭内や小売店舗など、さまざまな物体や動作への対応が求められる環境での応用を想定しています。

インターネットから収集された視覚・言語の質問応答データと、ロボット制御のデータを組み合わせて学習することで、人間が持つ常識を活用したロボット行動の生成が可能になっています。

もっとも、現状ではまだ多くの課題が残されていますが、その解決も時間の問題である可能性が高いです。

さらに、四足歩行や人型のロボットなど、さまざまなロボットで「ロボット基盤モデル」を活用するために、多種多様なロボットのデータを集める研究も行われてきました。

その最も代表的なものがRT-Xという研究で、Google社と世界の21の研究機関がそれぞれ保有するロボットのデータを公開して、RT-1やRT-2のモデルを学習したものです。

その結果、個別のロボットごとにデータを集めて学習するよりも、より高性能で汎用的なロボット基盤モデルが得られることが示されました。

RT-Xをきっかけに、世界中でロボットとタスクの大規模なデータを集める動きが加速しています。

だれの手でも簡単に、高いレベルの知能をロボットに埋め込むことが可能になる

このように、「基盤モデル」の進化によって、ロボットの研究や開発は大きな転換期を迎えています。

この大きな流れは誰にも止められないでしょうし、今後のロボット分野の発展において基盤モデルが欠かせない要素となることは間違いありません。

そしてそれは、ロボット分野に携わる人だけでなく、画像処理・自然言語処理・アルゴリズム・IoT・データベースなど、あらゆる情報系のエンジニア・研究者にとっても他人事ではないと思っています。

基盤モデルのおかげで、だれの手でも簡単に、高いレベルの知能をロボットに埋め込むことが可能となってきています。

やらない手はないでしょう。

『基盤モデルとロボットの融合 マルチモーダルAIでロボットはどう変わるか』は、多様な分野の研究者・エンジニア・起業家が、「基盤モデル」と「ロボット」を理解できるよう、基盤モデルとロボットについての基本的な説明から応用までを網羅的にまとめています。本書を通じて、その最前線の研究や技術を学び、みなさんが基盤モデルとロボットの融合に触れるきっかけとなることを期待しています。

【著者プロフィール】

河原塚 健人（かわはらづか けんと）

東京大学大学院情報理工学系研究科附属情報理工学教育研究センター講師。2017年東京大学工学部機械情報工学科卒業。2022年東京大学大学院情報理工学系研究科知能機械情報学専攻博士課程修了。博士（情報理工学）。特任助教を経て、2025年より現職。東京大学情報システム工学研究室（JSK）所属。専門は筋骨格ヒューマノイドの身体設計と制御、オープンソースハードウェアの4脚ロボット開発、深層学習に基づく知能ロボットなど。

著書：共著『Data-centric AI入門』技術評論社（2025）

「エヴァンゲリオンみたいな生っぽいロボット／人造人間をつくりたいという思いから、人体を精緻に模倣した筋骨格ヒューマノイドの研究をはじめました。現在は身体的な側面だけでなく、知能的な側面も含めて研究に取り組んでいます」

松嶋 達也（まつしま たつや）

東京大学大学院工学系研究科技術経営戦略学専攻 特任助教。一般社団法人AIロボット協会（AIRoA） CTO。2018年東京大学工学部システム創成学科卒業。2023年東京大学大学院工学系研究科技術経営戦略学専攻博士課程修了。博士（工学）。特任研究員を経て、2025年より現職。東京大学松尾・岩澤研究室のサブグループとなっているTRAIL（Tokyo Robotics and AI Lab）の立ち上げを牽引。専門はロボットのオフラインデータを用いた制御の学習（模倣学習・オフライン強化学習）、機械学習モデルを活用したサービスロボットシステム設計など。

著書：共訳『強化学習（第2版）』森北出版（2022）

「中学生時代につくった4脚ロボットが、簡単な機構とプログラムだけなのに「かしこく」「いきものっぽく」見えたことで、ロボットにハマりました。以来、人間と仲間になれるようなロボットを実現したい、それにより、知能や生命性を構成的に理解したいと考えています」

