「her/世界でひとつの彼女」について：コンピューターが本当の友人になることはあり得るか？

2014年3月1日 10時0分

会話を記憶し、頼まなくてもあなたを手伝ってくれるデジタルアシスタントが誕生する日は、思っているよりも近づいているかもしれない。

ここ数年、テクノロジーはますますパーソナルなものになってきているが、人間の友人と同じような「友達」になることは可能なのだろうか？

スパイク・ジョーンズ監督の映画「her/世界でひとつの彼女」は、オペレーティングシステムが私たちの行動から学習し、私たちが関心を示しそうなことを日々探してくれるまでに進化した未来を想定している。彼らは私たちのパーソナルアシスタントなのだが、友達と呼んでも差し支えないほどに特別な意味合いを持つものになっている。オペレーティングシステムと恋に落ちたとしても不思議ではないくらいなのだ。

映画「her」のヒロインは、OS1という最新型のオペレーティングシステムだ。最初に起動する際、ユーザーの性格とコミュニケーションのニーズにマッチするように独自の人格が作り出される。「サマンサ」と名付けられたOS1 は映画の主要登場人物の一人であり、パーソナルアシスタントとしてコンピューター、スマートフォン、TV といった接続機器の制御を行う。声はスカーレット・ヨハンソンが演じているのだが、これまでに登場した「人間ではないもの」の声の中では一番人間らしい声になっている。

サマンサは人間のように自然にしゃべったり受け答えをするだけではなく、色や顔、物語などに対する「好み」も持っている。彼女はウェブカメラを通して周囲を「見る」ことができ、冗談に対して笑い、自分でも冗談を言い、喜びや悲しみといった感情まで表現する。彼女は、持ち主が楽しむ趣味、人間関係、仕事のパターンも認識して解析し、わざわざ聞かなくても有益なアドバイスをしてくれる。そう、まさに友達のように。

人工知能の目標が人間の行動を模倣することだとすると、OS1 はその究極の姿だろう。

「her」で描かれたファンタジーに現在最も近いものは、仮想パーソナルアシスタントだ。ニュアンス社の Dragon Assistant のようなデスクトップクライアントや Apple のSiri、あるいは Google Now のスマートフォンアプリがそれにあたる。これらの製品が OS1 のようになることはあり得ないと思うが、多くの自然言語開発者は、人工知能アシスタントが今よりもっと人間らしくなるのに、そう長くはかからないと信じている。

人間以上のものへ

ニュアンス社のマーケティング責任者、ピーター・マホーニーは「人間ともっと流暢にコミュニケーションが取れる、より知的なシステムの構築に対する関心が高まっている」ため、仮想アシスタント機能の構築にこれまで以上に時間を割いていると話している。

コンピューター技術は、クラウド内の膨大なデータにアクセスし、そのデータをふるいにかけ、ほんの数秒でリアルタイムな決断を下せるまでになった。このためニュアンス社は自社のソリューションを、単に音声を処理するだけのものから、実際に文章から意味を抽出するものに推移させようと努力している。

「会話が実に重要なのです。元になったシステムは、検索エンジンみたいなものでした。何か言うと何か出てきますが、結果が正しいこともあればそうでない時もあります。でも人間はそんな風に動作しません。人間は曖昧ではありません。人間は明確化するものです。」とマホニーは言う。

話を分析して行間を読むことができ、「自然に話す」システムを作ることは、聞いただけでも難しそうだ。

マーティン・ファン・デル・スペックは、Voice Answer を含む 9 種類の音声認識サービスを有する新興企業、 Sparkling Apps の共同創立者だ。この企業では、Voice Answer を「次世代のパーソナルアシスタント」と呼んでいる。ファン・デル・スペックによれば、仮想パーソナルアシスタントには膨大な量のサーバー電力と、人工知能ソリューションの起動の省電力化が必要だということだ。限られた分野だけでなく広範な分野にわたる専門知識を持った本当にスマートなアシスタント多大な電力を必要とするため、供給が間に合わないのである。

ファン・デル・スペックは、「蓄積されるデータの量はサーバーのパフォーマンスの問題につながります。これに加えてプライバシーの問題もあるため、我々はEve（Voice Answer のアシスタント）のデータベースを 24 時間ごとにクリアすることにしました。このためEveは深刻な記憶喪失のような状態になり、長期間にわたる関係を構築することはできなくなったのです」と話している。

人工知能特異点研究所 CEO のルーク・ミュールハウザーは、多くの研究者が情報を共有していないため、人工知能の進歩は思った以上に遅れていると指摘している。グーグルやフェイスブックのような大手の私企業は人工知能関連の研究を隠しているが、学術研究者は常に進捗を雑誌などに発表している。

ユーザーについて学習する

映画「her」の OS1 のように、デジタルアシスタントが人間と恋に落ちるまで進化することはないだろうが、少なくとも前にどんな会話をしたかを記憶できるようには、徐々になっていくかもしれない。

今のパーソナルアシスタントは、現在起きている問題の解決には役立つ（「曲をかける」、「ジョーにメールする」、「Skype を起動する」、「近くの中華料理店を探す」など）。しかし、もっと人間に近い振る舞いを人工知能にさせたいのであれば、もう少し思慮深いシステムが必要だ。つまり、知能システムにより多くのデータを詰め込んで、文脈を考慮した判断を下せるようにする必要があるということだ。

「思慮深い人間は、相手が必要とするもの、欲しがっているもの、望んでいるものを理解します。相手を理解し、文脈に当てはめることができるのです。たとえ会話の一片であっても、そこには多くの情報が含まれています。オンライン情報が多ければ多いほど、周りに素晴らしいサービスがあればあるほど、周囲で起きていることすべてを理解できる知能システムと我々の連携は高まるでしょう」

リコメンデーション・エンジンを動かしているのは情報だけではなく、エンジンが学習した関係、分類、ジャンルの組み合わせだ。「構造が明確なコンテンツの方が構造化されていないものよりもすぐに取り出せるでしょう。曖昧なものは理解するには複雑すぎますから。」とマホーニーは言う。言い換えれば、現在のパーソナルアシスタントは、今映画館で何が上映されているかは把握することができるが、ユーザーと以前交わしたお気に入りの映画に関する会話を記憶し、ユーザーが気に入りそうな新しい映画を勧めるといった、構造化されていないコンセプトを実現するにはまだ時間がかかるのだ。

著名な発明家でフューチャリストであるレイ・カーツワイルは現在、グーグルのの X Lab プロジェクトに携わっており、グーグルが自然言語と人間の感情を理解するコンピューターを2029年までに構築すると信じている。しかし、彼が技術ブロガーのジミ・ディスに 12 月に語ったところによると、拡充されたデジタルアシスタントなら 4 年という短い期間の内に私たちのポケットに入るようになるということだ。

今のところ、検索はほとんどキーワードを探すことをベースに行われている。私が今取り組んでいるのは、何十億もの文章の意味を理解する検索エンジンを作り出すことだ。これは人間のアシスタントに近いものとなり、議論をしたり、複雑なことを説明したり、個人的な関心事などを話したりもできるようになるだろう。Google Glass のようなものを身につければ、今起きていることに注釈をつけられるようになる。会話を聞いて、有益なヒントを与えられるようにもなるのだ。リアルタイムで会話に適した逸話を教えてくれることだってあるだろう。

iPlace で友達を作る

パーソナルアシスタントの知能は、オンラインの情報がより豊富になり連携が高まるにつれて拡大していくだろう。そして多くの大企業がこの膨大な情報の蓄積を効果的に使おうと積極的に投資している。

昨年 10 月にアップルは、ソーシャルネットワークアカウントについて深い検索を行っているユニークな「パーソナルクラウド」という企業を買収した。またグーグルは最近、DeepMind Technologies という人工知能企業を買収した。ウェブサイトによれば、「シミュレーション、e-コマーズ、ゲームなどのアプリケーションに向けた汎用学習アルゴリズムを使う」ということだ。

しかし、巨大な情報のライブラリーをいくら集めても、本当のパーソナルアシスタントを動作させるには十分ではない。アップルやグーグルのような会社も「対話」の要素を完成させる必要がある。今はユーザーが質問してからパーソナルアシスタントが答えるまでに明らかに時間がかかりすぎているからだ。

キーとなるのはクラウド全体から切り離すことかもしれない。あるいは少なくとも、システムがクラウドに接続する回数を最小限に抑えることだろう。しかし、パーソナルアシスタントが可能な限りローカル処理で機能したとしても、理想的なパーソナルアシスタント（「あなたのことを何でも知っている親友」のようなパーソナルアシスタント）となるには、オンライン情報に深くアクセスする必要がある。各企業は、最も関連性の高い情報を提供するため、ユーザーのニーズを予測することに取り組んでいる。しかし考慮すべき情報がたくさんあり、流動的な部分も多い。

グーグルは現在パーソナルアシスタントの動作を速くするソリューション、すなわち Android のオフライン音声認識を実験しているところだが、一方で、インテルの新しい Edison コンピューターを使えば携帯デバイスでの音声認識を可能にしたり、すぐにでもウェアラブル端末に活用することができそうである。多くの企業によれば、プロセスの稼働に必要なセルラーデータ信号の往復回数を最小化し、会話を弾ませることが鍵となるようだ。

関連記事：インテルが次世代のウェアラブル・コンピューティングを担う極小マイクロ・コンピュータ「Edison」を公開

知的なパーソナルアシスタントがコミュニケーションの機微をもっとよく理解できるようになったら、その価値は高まるだろう。しかし研究者と開発者は次第に倫理的な問題に取り組まざるを得なくなっている。人間の脳みたいに機能するようコンピューターをプログラムして、人間を好きになる、あるいは愛するようにできるとしたら、開発者が個人の好みに合わせて、あるいは企業の利益に見合うようにシステムをチューニングしたいという願いは、たとえそれが倫理基準に反する内容であったとしても、抑えることはできないだろう。

言い換えれば、私たちは人工知能を使って車を運転し、交通渋滞を管理し、家庭のエネルギーを節約し、日々の暮らしをよりよく整えることを望んでいるのであって、特定のスーパーマーケットに行くよう口やかましく指図されたい訳ではないのだ。

「her/世界でひとつの彼女」のような映画は、パーソナルアシスタントと本当に友達になれるかもしれないというファンタジーを与えてくれるが、現在の人工知能技術の状態では、そんなことはすぐには起きそうもない。パーソナルアシスタントは気の利いた機能だが、信頼できる親友になるまでには、聞く力、知識ベース、メモリーバンクの向上が必要だ。

そのうち、人工知能アシスタントはもっと賢くなって私たちの習慣を学習し、一番興味を示しそうなものを教えてくれるようになるかもしれない。しかし、パーソナルアシスタントが友達の枠を超えて「それ以上」のものになるという見込みは少ない。そして、それは特に悪い答えではないはずだ。

画像提供： Annapurna Pictures

Dave Smith
[原文]