2010年代に入ってからのAIブームには明確なきっかけがありました。

 2012年6月26日に発表された、グーグルが資本投下して実施した「ディープラーニング」の大規模実験で、人間があらかじめ教えもしないのに、単に膨大なユーチューブ画像を視聴するだけで、ニューラルネットワークが「猫の顔」という概念を勝手に学習した・・・。

 この「勝手に」というところが、決定的に重視されました。

 それまでの情報処理は、あらかじめ人間が準備した概念があって、それに沿って記号操作を進めていくのが大前提でした。

 文字情報はもとより、DNAの配列であれ、センサーがもたらす莫大な数字列であれ、何らかの意味で筆記的(scriptive)な情報に対して演算が施され、計算機は何らかの答えを出します。

 これと対照的なのが人間の赤ん坊です。彼らは勝手に言葉を覚え、しゃべり出し、歩き出し、しなくてもいいことをたくさんしでかしてくれます。事前に定義した範囲内だけで行動してくれれば、育児はどれだけ楽でしょう?

 善くも悪しくも、人間の脳は事前に定義した範疇を超えて勝手に概念を獲得してくれます。やや難しく言うなら記号表象の生成という言葉を使うこともあります。

 逆にコンピューターは、事前に教えない概念を勝手に見出したりすることは、少なくともそれまではなかった。それができるようになったから、「今回のAIブームは本物だ!」ということで、国際投機熱を含めたブームが沸き起こっているわけですが。

 その特徴をよく認識したうえで、ビッグデータその他の平行する技術トレンドを考えてみようというのが、今回のポイントです。

[JBpressの今日の記事(トップページ)へ]

ビッグデータをどう見るか

 第3次人工知能ブームで急速に発展するAIとともに考えるとき、私たちは「ビッグデータ」をどう見るべきか――。

 ちょっと違う例から入ってみたいと思います。子供の頃、映画とテレビの違いがよく分からず、似たようなものだと思っていました。どちらも動画と音がある。でもテレビは自宅で無料で見られるのに、映画はお金を払って映画館に行かなければならない。

 でも、夜などにテレビでもロードショー番組で映画がオンエアされるわけだから、「結局似たようなものだろう」程度に思って過ごしていました。

 両者が全然違うと認識したのは、高校も卒業間近になって手にした評論家・蓮実重彦の書物を通じてのことでした。映画評論家でもある蓮実氏は、

 「テレビを見るとバカになる」「家にテレビは置かない」

 と、TVメディアに対してコテンパンで、最初はよくその意味が分かりませんでした。と言うより、特段の経験がなければ世の中の多くの人も昔の私と同じように意識しない方が普通だろうと思います。

 今ふうの表現を使えば、両者の決定的な違いは「ビジネスモデル」の差にあり、お金の流れという大本から始まって、表現の隅々に至るまで、映画とテレビは全く違うものと言ってよい。

 一言で言えば、テレビとりわけ日本の民放はお茶の間に進出した企業広告、ネオンサインで、番組本編も含めて広告費によって賄われている、広義の「CM」だということです。

 このときは、大学進学後に有名だった蓮実重彦氏の映画のゼミに参加し、数年後に2度目の博士課程で蓮実さんの学科で学位を取り、彼が総長だったおかげで音楽の研究室を持つことになる、などとは想像もしていませんでした。

 が、この2度目の博士課程、社会人大学院生時代に、私は地上波の音楽テレビ番組の監督で生計を支える巡り合わせとなり、映画とおよそ違うテレビの現実を知ることになります。

 繰り返しますが「お茶の間に進出したネオンサイン」企業広告費で賄われる「全編CM」であって、スポンサーメリット第一、代理店は手を突っ込んでくるわ、時々刻々、プロファイルごとの視聴率がモノを言うわ、ほとんどマリオネット状態で、ビジネス情報に操られながれ制作、オンエアしていかねばなりません。

 作家性をもって時代の証人になっていく・・・といった、かつては文学が持ったような方向性も表現の深さも、およそ現場では問われない。いや、実際には心あるテレビパーソンはたくさんいるのですが、お仕事ですから、なかなか、そこは難しい。

 私は1997年から99年にかけて、急逝した黛敏郎さんの後を受けて地上波音楽テレビ番組「題名のない音楽会」で音楽的な責任を負っていました。

 実のところ。黛さん存命中の「題名のない音楽会」はそれを免れていた希少な例外でした。スポンサーの出光興産は企画構成・黛敏郎の番組に何もクレームがなく、電通も局も静かだった。

 しかし、黛さんの急逝後、私が番組に関わった時期にスポンサーの態度変化は幸いなかったのですが、局内や代理店との関係はあちこちに動きが出始めていました。

 そんな中で私は、地上波の音楽番組を作っていくうえで「営利に左右されない音楽家の良心」の代表みたいな立場でした。

 もろもろ「社員」だと言えないことが多いなか、私はフリーランスの芸術音楽家として筋道を通す発言ができました。実のところ黛さんが防波堤になっていた部分の後釜で、30歳そこそこの若造にはなかなか大変でした。

 現実には、スポンサー/プロダクション/代理店の3方からサンドバッグ状態が常態となりました。まあ、良い経験をさせてもらったと今は思っています。

 結局足かけ3年でこのポジションはお役御免となり、大学に呼ばれることになりました。

ビジネスモデルから見た「巨大情報処理」の狙い

 この「テレビ」と「映画」のケースと似たような違いが、世の中の多くに意外なほど見られるように思うのです。

 あらかじめ記しておきますが「テレビが営利でダメ、映画は表現として深いから良い」」なんて単純な話ではありません。見ていただくと分かるように、むしろ「映画タイプ」の方が問題が大きいかもしれない、というのが今回の論旨です。

 もちろん映画の場合でも、作家性などと言ってもビジネスであることには間違いなく、配給全体を念頭においた周到なファンドレイズが必要不可欠です。

 しかし、そこで問われるのは瞬間視聴率とか特定スポンサーに関するメリットやタブーという以上に、もう少し違う表現のポイントが様々にあり得ます。

 まず、映画タイプの良い面から見ていくことにしましょう。

 全編3DのCGアニメ、全編モーションキャプチャからデータを取った3DのCDアニメなど、技術の最先端とのコラボレーションも、テレビではなかなかできません。

 また、スタジオ・ジブリのアニメーションのように、環境保全への強いメッセージを持つような作品は、1980年代ゴールデン時間帯のテレビでは考えにくいものだったでしょう。

 日曜夜のゴールデンで「アルプスの少女ハイジ」や「母を訪ねて三千里」など、世界のどこに出しても長く愛されるアニメーションを作っていた高畑勲さんや宮崎駿さんが、テレビの枠を外れて「風の谷のナウシカ」を作ることができたのが、より自由度の高かった「映画」の解放区だったと言えば、簡略化に過ぎるでしょうか・・・。

 でも、その中を取って生まれた「となりのトトロ」のようなアニメーションは、公開からすでに30年になりますが、いまだに子供たちに「同時代の友達」として愛され続けている。

 一概には言えませんが、映画作品の寿命はテレビの瞬間風速よりはるかに長いし、少なくともジブリのアニメーションは1980年代末から2010年代にかけてグローバルに見た日本文化を明らかに特徴づける、歴史の証言になっている。これも間違いないでしょう。

 ここでは「映画」と言うより「個」個別を大切に追う考え方と、「テレビ」と言うより視聴率、ないし「統計平均」を貨幣価値に変換する観点、2つを対照しておきたいと思います。

 先ほども記したように、私は1997年から99年にかけて地上波番組で音楽的な責任を持ちましたが、様々な力を背景に音楽の良心を保持していた黛敏郎氏の没後、彼が右とすればむしろ左側から、黛時代には不可能だったことばかりチャレンジしました。

 例えば大江健三郎氏を招く番組などを作りましたが、「歴史に長く残る音楽」と「瞬間風速」の間でいろいろな経験をしたと思います。

 閑話休題、大規模情報処理を巡っても、これと同様の観点を、常に持っておくのが重要だと思うのです。以下「映画タイプ」の困った面を考えてみましょう。

防犯カメラと顧客情報:ディープラーニングから考える

 通り魔事件など、世間を騒がす凶悪犯罪が発生すると、その模様を撮影した防犯カメラの画像が精力的に解析されます。

 比較的記憶に新しいところでは、今年2月13日、クアラルンプール空港で発生した、かつての北朝鮮の最高指導者・金正日の長男、金正男氏の暗殺事件直後の、防犯カメラ映像が思い出されます。

 大規模データストレージから、漫然と統計量を算出しようとしても、およそ要領を得ませんが、特定の人物をターゲットに検索をかければ、かなりの精度でその足取りをトレースすることができる。

 次々と明らかになる、怪しい挙動を採る「見届け役」その他の画像データ発見の報を、ご記憶の方も多いでしょう。

 クアラルンプールの防犯カメラがどの程度コンピューター処理されているかは知りませんが、顔認識のデジタル画像処理システム前提で収録を行えば、相当膨大な情報ストレージから、かなり詳細な個人の挙動が割り出せます。

 いささか旧聞に属しますが、大阪梅田で災害時避難誘導を念頭に「顔認識可能」なカメラで通行客個人の顔を認識、追尾するシステム実験が計画、実施されかけ、個人情報保護の観点から世論の大反対を受け、中止に追い込まれたことがありました。

 これを機に情報技術のELSI(Ethical Legal and Social Issues=倫理的、法的、また社会的観点)からのチェックが厳しく言われるようになり、私たちの研究室でもこの問題に長くコミットしています。

 ここで重要なのは、仮に漫然と家庭用のデジタルビデオで梅田駅を監視しても、個人の挙動を手に取るように追うのは、そんなに楽なことではないということです。

 災害時避難を前提に、一人ひとりの個人が顔まで弁別できる「情報粒度」でテイク=撮影されたデジタルデータが、直ちにコンピュータビジョンで解析されることで、はっきり顔の分かるこの2人連れはJRから阪急方向に進む途中、1人は地上に降りて分かれた・・・といったプライバシーが全部情報化できるようになります。

 ここで思い出していただきたいのが第3次AIブームの火つけ役となった「ディープラーニング」です。

 ニューラルネットワークAIは、ただただ漫然とユーチューブの画像を「視聴」するなかから、勝手に「猫の顔」という概念を獲得することができました。

 階層学習のシステムを活用するAIが最も威力を発揮する1つに、冒頭に触れた「非筆記的なデジタル情報」があります。

 例えば、全くタグづけなどがなされていない膨大なデジタル監視カメラ収録データを学習させ続けるだけでも、AIはかなり多くの知的情報を割り出すことがまず間違いなくできます。個人の追跡追尾など赤子の手をひねるようなものでしょう。

 ここから垣間見える可能性は、良きにつけ悪しきにつけ現在多くの人が「ビッグデータ」ビジネスで思い描く未来像と、かなりかけ離れているのではないでしょうか?

 犯罪捜査などに使って有為であればまだしも、何かきっかけがあって「この人は歌舞伎町の出会い系カフェに出入りして・・・」といった行動確認などに使われたのでは、たまったものではありません。

 テロ防止が重視され、重大犯罪の未然防止が法的にも強化されるなか、こうした技術の推進には様々に倫理的な疑問符がつきます。少なくとも欧州ではこの種の議論は極めて盛んで、ネット上での「忘れられる権利」もすでに法律化されています。

 前回のコラムでも記しましたが、何らかの大量のデータから統計的に有為な結論を導くのは大変なことです。

 かつて私が学んだ物理の実験はその最たるもので、素粒子・高エネルギー実験など、おびただしい量のデータを解析の対象としますが、データテイク初期から最終的な解析前提で慎重に観測されたデータでなければ、そもそも解析する価値があるか疑問が投げられて当然です。

 しかし、犯人の追尾のような形であれば、低解像度のカメラでも、ともかく記録を残しておけば捜査の役に立つ可能性がある。ディープラーニングのAI技術は、一定の成果を間違いなく収めることでしょう。

 現状でもこの両者を折衷したようなシステムはすでに実用化されています。高速道路などに設置されている自動車ナンバーをチェックし解析する「Nシステム」です。

 ナンバープレートの画像情報をコンピュータービジョンで読み取り数値データ化、検索すれば、いつどこをどのナンバーの車が走ったかを割り出すことができる。

 こういう「ビッグデータ」の使い方は、最初に挙げた「テレビ」と「映画」の対比では、きわめて「映画的」、つまり個別ターゲットの追跡尾行などに役立つ技術と言えるでしょう。

 2011年、米バラク・オバマ政権のもとで開始された米国流「ビッグデータ」のもう1つの側面として、有権者一人ひとりの情報をトレースし解析、それをもとに選挙戦対策を立て、オバマ再選の戦略に活用された、という話があります。真偽のほどは定かでありません。

 しかし、少なくとも、雑多なデジタルデータのアーカイブを対象とするとき、そこから統計的に有為な情報を割り出してビジネス戦略の役に立つより、個別のターゲットを選び出して、その行動を追う方が、はるかに現実的でフィージブル、つまり、手にしているデータの情報粒度にもよりますが、手間とコストに応じてそれなりの結果を割り出す現実的な目算が立ちやすいのは間違いありません。

 階層学習的な人工知能はいまだ万能と言うには程遠い段階にありますが、でも少しずつ、確実に、実用化は進んでいくはずです。

 何でもかんでもリスク、とエドワード・スノーデンのような警鐘を鳴らしすぎるのも考えものと思います。

 しかし、技術的に可能なことと、その先に起こり得る事態を幅広に「想定の範囲」においておいて損をすることはありません。次回は、私たち自身による「ベクトル知識構造化」の議論を含めて、平易なご紹介ができればと思っています。

筆者:伊東 乾