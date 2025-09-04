AIエージェントが旅行の日程を考え、飛行機や列車、ホテルの予約をとり、行くべきところ、見るべきところを案内してくれるような時代がまもなくやって来る。

しかしそのAIエージェントが誰かに乗っ取られていたり、騙されていたら――その旅行は目も当てられないものになってしまうだろう。

AIは、あらゆるデータベースにアクセスして選択するというプロセスを経るため、きわめて「信じやすい」という特徴を持つ。逆に言えば、AIはきわめて「騙されやすい」のだ。

サイバーセキュリティの会社を率いる著者が「AIという人格」との付き合い方を指南する『騙されるAI』から、抜粋してお届けする。

AIは「時間の流れ」や「因果関係」が苦手

AIに画像を渡して「内容を説明して」という作業をやってみたことがある人もいると思います。

画面に映っている文章を抜き出したり、不慣れな外国語で書かれた風刺画などを読み込ませて説明させたりとAIは画像の内容をかなりの精度で説明でき、画像解析は便利に使えます。

しかし動画となるとどうでしょうか。実は現状、AIは動画の解析はまだ苦手とされています。

ご存じのように、動画というのは、たくさんの静止画が高速で連続して表示されているものです。たとえばテレビやYouTubeだと、通常は１秒間に30個の静止画像（30fps）で構成されていますし、スポーツ中継などは60fpsという多数のコマで放送することで滑らかな動きを表現しているそうです。

従来のAIは基本的には、動画の構成要素である一枚ずつの静止画像を個別に処理するのが一般的でした。パラパラ漫画のページを一枚ずつ見ていくという形で、一つ一つの画像を独立して処理しているのです。ここで問題となってくるのが、一つ一つの静止画像の関連性です。AIは、人間と違って、前の画像とのつながりや、次のページへの流れを把握できず、「動き」や「変化」を理解することが難しいのです。人間ならパラパラ漫画を素早くめくることで動きを直感的に感じられますが、AIはページの関連性や連続した動きを直感的には理解できないのです。

大規模言語モデル（LLM）は、基本的に「時間の流れ」や「因果関係」を理解する仕組みを持っていません。AIにとって時間とは、テキストやデータが「どの順番で並んでいるか」という表面的な構造情報に過ぎません。人間のように「過去→現在→未来」という連続した流れとしての時間や、そのなかで生じる意味や感情を捉える能力は、現状のAIには備わっていません。

たとえば、人間であれば「コップにコーヒーが注がれている」様子を見れば、その液体の流れや量の変化を一連のプロセスとして直感的に認識できます。これは、視覚的な変化だけでなく、「いままさに注がれている」という時間的な動きを理解しているからです。しかしAIの場合、それは「黒い部分（コーヒー）が徐々に増えている画像の差分」にすぎず、それを「注がれている」という意味ある動きとして理解するのは簡単ではありません。

さらに難しいのは、こうした「客観的な時間」ではなく、主観的な時間感覚です。たとえば、久しぶりに姪に会ったときに「もう9歳になったんだ！」などと感じるのは、単なる年齢の数字ではなく、「前に会ったときからの出来事」や「その間に自分がどう感じていたか」といった内面的な時間の積み重ねがあるからです。こうした人間ならではの時間感覚は、現在のAIでは再現が非常に困難です。

実際、「主観的な時間の欠如こそが、AIが人間と本質的に異なる最大の要因である」と考える研究者もいます。時間は物理的なスケールではなく、記憶や感情、意味と密接に結びついた概念、つまり人間が「勝手に感じているもの」であり、それを理解するには単なるデータ処理を超えた認知的能力が求められます。

AIに動画の「変化」を理解させるには

AIが時間の概念を理解しようがしまいが、AIに動画の解析をしてほしいという要望は今後さらに高まってくると思います。その要望を叶える一つのきっかけになるかもしれない論文を紹介します（ ※参考「動く映像の中で “意味” を理解するAIの新技術：４Ｄ LangSplat」）。

この論文では、「AIが動画の中身を “意味” として理解するにはどうしたらいいか」という問題に挑戦しています。具体的には次のような三つの工夫で、AIに動画の「意味ある変化」を理解させようとしています。

まず、画像認識の技術を使い、AIが動画の中でどの物体がどこにあるかを追いかけられるようにします。たとえば、「コップ」「犬」「人」などをフレームごとにちゃんと認識し、それが時間とともにどう動くかを記録します。

AIに「このコップにはいまコーヒーが注がれている」と理解させるため、画像とテキストの両方を扱えるマルチモーダルAIを用いて、動画を構成する画像から、認識した物体ごとに自動で説明文を作成します。

フレーム１→「コップは空っぽです」

フレーム２→「コップにコーヒーが注がれ始めました」

フレーム３→「コップにコーヒーが半分入りました」

フレーム４→「コップは満杯です」

といったように、説明をつけていきます。

AIがフレームごとに別々の説明文を見ているだけでは、こうした「途中の状態」や「変化の連続性」をうまく理解できません。そこでこの研究では、状態の変化を “グラデーション” のように滑らかに捉える仕組みを取り入れています。

具体的には、AIが物体の代表的な状態（「空のコップ」「半分のコップ」「満杯のコップ」のような）をいくつか覚えたうえで、各フレームをそれらの状態の “混ぜ具合” で表現するのです。

たとえば３秒目のフレーム（ある程度コーヒーが注がれた状態）なら、

空のコップの状態の20％

半分のコップの状態の70％

満杯のコップの状態の10％

といった具合に、１枚の映像が「どの状態にどれくらい近いか」を数字で表します。

この数値データをもとに、AIは「状態が時間とともにどう変化しているか」を、連続した数値の変化として学習します。これにより、「コーヒーが注がれている途中」というような曖昧で中間的な状態も、AIがより正確に把握できるようになります。

この仕組みによって、AIは次のような言葉による検索ができるようになります。

「コップにコーヒーが注がれているシーンだけを探して」

「チキンが閉じた容器に入っているときだけ表示して」

「この動画の中で “走っている犬” が映っているタイミングを教えて」

つまり、AIが動画の内容を「言葉で理解して探せる」ようになるのです。

今後AIは「動画の中で起きている変化」や「その意味」を、より自然に捉えられるようになるでしょう。たとえば監視カメラ映像から重要な出来事だけを抽出したり、映像編集やアーカイブ検索をAIが自動化したりといったことも可能になると思います。医療、スポーツ、教育、エンタメなど、様々な現場での実用化も視野に入ってくるはずです。

しかし「主観的な時間感覚」や「文脈からくる直感的理解」、つまり「この瞬間が意味を持つのはなぜか」という経験に基づく認知の部分は、AIと人間との差分としてしばらく残りそうです。人がどのように「意味」や「時間」を感じているのかを問い直すことも、AIを進化させるうえで大切な視点になっていくのかもしれません。

