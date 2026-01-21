AI技術の発展はとどまることなく、「生成AI」の次には、「AIエージェント」といった自律型AIに向けての進展が盛り上がりを見せている。人間社会に入り込むことを目的とするロボットもヒューマノイド型を始め、その身体能力も劇的に向上しつつある。米国ビッグテックが躍進するかたわらで、日本の研究・開発の現場が目指すべき道について考える。

本記事は栗原聡（編著）『AIの倫理 人間との信頼関係を創れるか』（角川新書）から抜粋・編集したものです。

ビッグテックにかなわないリソース

ロボットに具体的な動作をさせるには、摑む作業であれば、どう摑むかについてロボットに試行錯誤させ、うまく摑めた時の動作を覚えさせるやり方が現在における主流なやり方であり、これは強化学習と呼ばれる。

人が動作の詳細をロボットに教え込む必要がないことから、複雑な動作を学習させるような状況において強化学習は有用なのだが、膨大な学習が必要となるのが難点である。そこで、ある動作を学習させるために、同じロボットを数百台用意し並列で同時に学習を実行させることで学習時間を短縮するようなやり方が採用されている。

ただし、こうなると、結局はLLM（大規模言語モデル）の開発と同様に、資金の豊富な米国や中国の、ごく限られたAI研究開発拠点のみがなし得ることになる。

とすれば、米中と同じようなアプローチを我々日本が真似て追いつこうとすることは、最新技術を維持することの重要性は無論認めるものの、極端な表現をすれば無駄な努力ということになりかねない。ChatGPT が公開される以前の、大規模基盤モデルの研究が過熱し始めた時から、最初に巨大なAIモデルを構築できた者がすべてを持って行く、と研究者仲間でよく話をしていたが、それが現実になったわけだ。米中と同じアプローチでは勝機はゼロに近いと言わざるを得ない。

LLMにおいて、日本においても米国OpenAI 社の最新のLLMであるGPT5 レベルの開発をする高い研究力は明らかにあるのであるが、構築するためのリソースにおいて米国ビッグテックには圧倒的にかなわない。同じようなアプローチをとる限り、先行する米国には加速的に引き離されていくであろうし、中国も米国同様どんどん先行している。

中国のDeepSeekの開発の実態は不明であるが、本当に報道通りの9億円程度で開発できたのだとすれば、日本においてははるかに巨額の予算が投入されているものの、同様のニュースを聞いたことがない。日本の基盤モデル研究者のレベルが低いのか?

筆者は決してそうは思わない。とすると、うまくいくか分からない研究には手を出さないということなのであろう。いや、そのような研究に研究費が拠出されないという構造的な問題なのだと思うわけである。

米国AI企業の技術を使い倒す

では、バディAI（「バディ＝相棒」と言えるほど人間からの信頼を得た自律型AIのこと）に汎用的な動作をさせるための、自律的に自らの動作を創出するにおいて、我々に手段はあるのか?

適材適所という考え方をすればよいのかもしれない。折角巨大なAIモデルを米国ビッグテックが構築してくれ、我々が利用できるわけであるから、これを使い倒すのが最良な方法であろう。

我々は、例えば「喉が渇いたな」という動機から、部屋からキッチンに移動し、食器棚からグラスを取り出しテーブルに置き、冷蔵庫の扉をあけて、水の入ったボトルを取り出し、ボトルをテーブルに置いてから冷蔵庫の扉を閉め、ボトルを持ってグラスに注ぎ、ボトルを冷蔵庫にしまう、という動作系列を特に意識もせず当たり前のように組み立てて実行することができる。

実際には、脳において「喉が渇いた」という抽象的な動機を、このような動作系列に変換する具体的な処理が行われているわけであり、この一連の単純な行動系列も、夏であればこの系列でよいが、冬となれば、お湯を沸かしてお茶を淹れる系列がちゃんと導出される。

バディAIは多様な動作を多様な状況において適切にできなければならない。すなわち、多様な動機に対する動作系列を、しかも夏か冬かといった周りの状況についても考慮しつつ導出できることが必要となる。このような動作系列を求めるAI技術はプランニングと呼ばれ、これまでにもいろいろな方法が提案されているが、基本的に、個々の状況における動作系列を一つひとつ求める必要がある。しかも、あらゆる状況における動作系列を求めようとすると、その組み合わせは膨大なものとなってしまう。

ここでChatGPT のようなLLMの出番である。ChatGPT のすごさは、流暢に言葉を操ることができることや、要約や感想文を書くことができることはもちろんだが、その神髄は圧倒的な量の我々が書いたテキスト情報を取り込んでいるところにある。ありとあらゆる状況における人の動作に関する情報も結果的に取り込まれている。

つまり、LLMで状況に応じた行動系列をほぼほぼ生成させることができるのだ。例えば、冬の寒い時期に何か飲みたくなったらどうする? と聞けばちゃんと、文面から状況を理解した上で、温かい飲み物を飲むと回答してくれる。手順だって教えてくれる。

また、この方法だと、前述の強化学習のように、単に一連の動作系列を学習するやり方ではできないような、むしろとても有用な振る舞いが可能となる。それは、「状況に応じた立ち居振る舞い」である。

SF映画などに登場するロボットやアンドロイドは、実に多様な感情のこもった振る舞いをする。それは合理的には無駄な動作ばかりかもしれないが、人とのやりとりにおいては重要なのである。人の仕草も同様であろう。動作としての表面的な学習をしたロボットにはその動作の意味を理解することはできない。

LLMから生成される動作系列においては、一つひとつの動作系列はそれに対する説明が可能で、モラルや文化を反映した動作を生み出すこともできるであろうし、一つひとつの行動に対する動機を答えることもできる。

AIが“バディ”になるまでのハードル

さて、バディAIがバディとの共生関係を確立するには、同時にバディAI同士の連携もできなければならない。

バディAIは自身のバディに対して適切なインタラクションを実行する。一方で、当然であるが人同士の利害は競合することから、バディAI同士の協調は必須となるというわけだ。これまでもメカニズムデザインや自動交渉といった研究分野において、AI同士の連携の仕方に関する重要な成果がいろいろ出ているものの、合理的な協調を目指すものが多い。しかし、人は合理的に判断しない生き物であり、全体としての利得と個々人の利得の単なるバランスを考慮するだけでなく、個々人の気持ち的な満足度のバランスも考慮する必要がある。

例えば、自分が100円を、そして自分の友人が1万円もらえる状況において、自分が100円もらうことを拒否することで、相手も1万円をもらえなくなるとしたら、自分はどのような判断をするだろうか?

100円であってももらった方が合理的には正しいはずだ。しかし、人間はそのような判断をしない。すなわち、ここで自分が100円を拒否すれば、相手は1万円がもらえなくなるからである。自分が100円で相手が1万円では不公平だということである。

この時、自分のバディAIが「100円でも得するのだからもらっておいたら」と言ったら、自分はバディAIを信頼することはできないだろう。自分の気持ちを分かってくれないようなAIを人が信頼することはできないからである。

そして、自分と相手の双方のバディAI同士でのやりとりにおいて、自分の「100円をもらわない」という判断の理由を、自分のバディAIが相手のバディAIに伝えようものなら、友人関係が破綻するかもしれない。100円を拒否する判断は自分の「本音」であり、相手への「建前」としては決して不公平が理由だとは言わず、別の何らかの理由を何とかして考えるはずである。

バディAIはバディの意図を理解するために、バディの本音レベルの考えも共有することになるのだと思うが、バディAI同士での連携において、どの情報であればお互いに共有してもよいのかといった新たな問題についても考える必要がありそうだ。

なぜ「信頼できるAI」が必要なのか

バディAIは実空間であれサイバー空間であれ、我々のパートナーとして付き合ってくれる。そもそもなぜ、信頼できる自律型AIが必要となるのか? 高度に自律性のあるAIが我々とサイバー空間の仲介をしてくれることで、有象無象の情報に溢れるインターネットへの直接アクセスを回避でき、そして、自分の視野を広げ、よりイノベーティブなこれまでとは異なる判断や思い切ったチャレンジを可能にしてくれるからである。

バディAIは実空間であっても、実ロボット以外に、ARデバイスによりバーチャルアバターとして存在することも可能であり、また、サイバー空間においてもそのままバーチャルアバターとして存在することができることも先に述べた。つまりは、バディAIの存在により、これまで以上に実空間とサイバー空間との境界が曖昧なものとなっていく。

デジタルツインは現実世界から収集したデータを基に、仮想空間上に現実世界を再現する技術のことであり、実空間とサイバー空間の個別性を意識させる単語であるが、ゆくゆくは両者が融合していく。現時点での我々の生活の基盤は実空間であるので、現在の実世界が、両者が融合したReal Phygital Society に変容していくのであろうと考えている（Phygital とは、物理的な現実世界〔Physical〕とデジタル〔Digital〕を融合させる概念を意味する造語である）。我々は物理世界を主たる生活基盤とすることから、敢えてReal という言葉を付けた。

AIは進化するが、我々自体、身体とマシンとの融合が加速するであろうし、そもそも目で見る映像自体も脳が認識しているものに過ぎない。目から入る画像と、脳に直結されるケーブルから画像として入力されるサイバー空間からの情報を区別する必要などそもそもなくなるのかもしれない。

結果的に、入力される情報量はさらに莫大なものとなっていくが、人の認知的処理能力は、我々がホモサピエンスであり続ける間は大きく変化しないであろうから、やはりバディAIのような仲介者によるサポートは避けられないというわけだ。

日本を「AI研究開発のガラパゴス」に

昨今の国内外の情勢を見るに、人類の自助においては、もはや世界規模の問題解決は不可能な状態であり、人間社会はあまりにむやみにいろいろなモノを繫げたことで、アテンションエコノミーやフィルターバブル、そして繫ぐことの対局にある分断を招き、SNSは集団心理状態を大域的に生み出し、人間社会自体が「臨界状態」になっているように感じる。

新たな安定に向かうための相転移が起こるにせよ、それが大きなカオス的状況を経由するのは避けたいところであり、次世代AIとの共生によるReal Phygital Society への変容にて新たな安定系に緩やかに変容できることを願いたい。その際、世界が一律に変容するわけがなく、日本が最も早くに変容を成し遂げるように思える。その理由については拙著『AIにはできない』（角川新書）を参照いただきたい。

日本国内に閉じれば、その世界においては多様性を抱擁し、モラル意識も低くはない。市場や産業などが日本国内だけで独自の変化を遂げ、国際的な標準や市場から孤立してしまう現象としてガラパゴス化という言葉があるが、敢えて申せば、ガラパゴス化万歳といったところか。ただし、日本ならではのAI研究開発を押し出せるかどうかが鍵であり、そのための一歩を踏み出す時が来ているのは間違いない。

【筆者プロフィール】

栗原 聡（くりはら・さとし）

慶應義塾大学理工学部 教授。人工知能学会 会長。慶應義塾大学共生知能創発社会研究センター センター長。慶應義塾大学大学院理工学研究科修了。博士（工学）。NTT基礎研究所、大阪大学、電気通信大学を経て、2018年より現職。科学技術振興機構（JST）さきがけ「社会変革基盤」領域研究総括。オムロン サイニックエックス社外取締役、総務省情報通信法学研究会構成員など。マルチエージェント、複雑ネットワーク科学、計算社会科学などの研究に従事。著書に『AIにはできない 人工知能研究者が正しく伝える限界と可能性』（角川新書）、『AI兵器と未来社会 キラーロボットの正体』（朝日新書）、共編著に『人工知能学大事典』（共立出版、2017）などがある。

