言わずと知れたジェフ・ベゾスCEOを直属の上司に持つ、米アマゾンのデイブ・リンプ上級副社長にAIスピーカー「エコー」の開発秘話を聞いた(撮影:尾形文繁)

米アマゾンが作り上げた最先端の“頭脳”がようやく日本にやってきた。アマゾンは自社開発のAI(人工知能)「Alexa(アレクサ)」を搭載したスピーカー「Amazon Echo(アマゾン・エコー)」を日本で発売する。当初は一部のユーザーに招待制で販売し、11月13日の週から出荷を始める。基本モデルの価格は1万1980円だ。
10月上旬にはグーグル、LINEの米日IT大手が相次いでAIスピーカーを日本市場に投入。アマゾンは3番手となったが、主戦場の米国では2014年にいち早く発売し、全世界で数千万規模となったユーザー数は他を圧倒する。
欧米での躍進の背景は。そして今後、アレクサー・エコーをどのように深化させるのか。アマゾン米国本社で自社デバイスの開発、販売までを率い、ジェフ・ベゾスCEOが直属の上司というデイブ・リンプ上級副社長に話を聞いた。

目指したのは、名作SFドラマの世界

――アレクサやエコーは、どんなビジョンから生まれたのか。


アマゾンが持つ技術を掛け合わせてできあがったのが、AIスピーカー「エコー」だった(撮影:尾形文繁)

長期的なゴールは、(米SFドラマシリーズの)『スタートレック』に出てくる、どんな質問を投げかけても答えてくれるコンピューターを再現することだ。開発のきっかけになったのは、社内エンジニアへのある“問いかけ”だった。

アマゾンには長年磨いてきた2つのコア技術がある。1つめが「アマゾン ウェブ サービス(AWS)」で培ったクラウドコンピューティングのノウハウ。そしてもう1つが、ネット通販(EC)のレコメンド機能で鍛えてきた機械学習の技術だ。これらを組み合わせることで、どんな新規事業を生み出せるか。そんな問いを(経営陣から)社内エンジニアへ投げかけたのだ。

すると、機械学習のエンジニア集団のメンバーがクラウドベースの音声認識サービスに着目し、エコーの前身となるプロトタイプを作った。これは非常にシンプルなものだったが、そこから開発チームが努力を重ね、今のように英語でも、日本語でもスムーズでナチュラルな発声をできるまでになってきた。

――音声認識という領域に可能性を見いだした理由は?

顧客に受け入れられるかどうか、正直に言って最初は見当もつかなかった。また、初期のプロトタイプは今のエコーとは似ても似つかないほど反応が遅く、うまく機能しなかった。だが使ってみると、部屋のあちこちから話しかけ、時刻や天気を聞けるというのは、なかなかうれしいものだと感じた。われわれは確かな感触を得た。

ある程度ベースの技術が固まってくると、次は何千ものアマゾン社員の家に試作機を置いて、情報の蓄積や開発を進めた。そうしてアレクサのパーソナリティが育つにつれ、「これはいける」という思いが強くなった。

音声操作は老若男女に易しいテクノロジー

――日本に先行してサービスを投入している欧米各国では、ユーザーはどのようにエコーを使っているか。


自身もエコーをフル活用しているというデイブ・リンプ氏。音声というインターフェースの使いやすさを強調する(撮影:尾形文繁)

すでに数千万規模のユーザーがいるため、使い方は実にさまざま。やはり音楽のストリーミングが最も人気の高い機能だが、朝、身支度を整えながら天気やニュースを聞くケースも多い。私個人は、キッチンタイマーやショッピング、(電球のオン・オフなどの操作ができる)スマートホームの機能も使っている。

いずれにせよ、声だけであらゆる操作ができるというのは、若い人はもちろん、テクノロジーに長けていないお年寄りにも使いやすいインターフェースだ。その点は今後もアピールしていきたい。

――今のアレクサやエコーには、まだ技術的に足りない点も多い?

スタートレックのコンピューターにはまだずいぶん隔たりがある。まず、もっと人間のように自然に会話できるようアレクサを進化させたい。自然言語処理の技術を磨き、人間の記憶の仕組みや、文脈のつかみ方をアレクサに教え込むことが必要。必ず成し遂げられると思っているが、時間はまだかかる。

――2016年7月の米メディアのインタビューでは、アレクサやエコーの開発人員が1000人規模と話していた。現在の体制はどこまで拡大しているのか。

開発体制は、今や5000人超に膨らんでいる。基本的には、8〜10人の小さいチームで、1テーマに徹底的に取り組む。あるチームはアラーム機能だけ、別のチームはタイマー機能だけの改良に朝から晩まで専念する、といった具合だ。

開発の舞台は社内だけではない。アレクサはあらゆる知識をクラウドに持たせているため、ユーザーが毎日使えば使うほどに新しいことを覚え、改善が進む。また、外部の開発者が作るアレクサ用のアプリケーション「スキル」によって、できることが増えていく。これもスタートレックコンピューターの実現に向け欠かせない要素だ。

皆が欲しがる技術をいち早く見つける

――アマゾンの企業としての成長には、アレクサやエコーはどのようなインパクトをもたらすのか。


やってほしいことを声で発すれば、処理してくれる。そんな音声認識技術はどこまで消費者に受け入れられるか(撮影:尾形文繁)

われわれのビジネスモデルは、ユーザーが本当に使いたいと思えるサービスやテクノロジーをいち早く見つけ出すこと。それ自体が最も重要かつ難しい部分であり、それさえできればマネタイズの方法は後からわかってくる。10年前にキンドルを発明して以降、われわれが長年やってきたことだ。

(アレクサ・エコーに関しては)アマゾンにしても、外部パートナーやデベロッパーにしても、マネタイズできる方法はこの先いくらでも見つけられるだろう。買い物、電子書籍、音楽ストリーミング、いずれのビジネスも、まずは競争力のあるすばらしいプロダクトをつくらなければ、その先はない。

――ジェフ・ベゾスCEOはこの領域への投資にゴーサインを出したとき、どんな期待を語ったのか。

ひと言、「Invent!(発明せよ!)」と。新しいものを発明するのが彼の何よりの関心事であり、これはリスクを恐れずに投資に踏み出すべきという判断だった。

――アマゾンのコアビジネスは小売業だ。エコーの発売後、アマゾンにおけるユーザーの買い物動向は変わった?

ショッピング機能の利用規模はまだ限定的。ただ、たとえばキッチンのシンクでハンドソープがなくなったと気づいたときに声だけですぐ注文できるなど、便利に使ってもらえる場面は必ずある。(エコーやアレクサは)ユーザーの生活を便利にする長い道のりを進み始めたばかりに過ぎず、今後も機能開発を続けていく。

求められれば、製品群を広げる

――米国ではさまざまなタイプのエコーを発売している。ディスプレーがあるものなど、製品ラインナップを広げている理由は。


Dave Limp(デイブ・リンプ)/アマゾン米国本社のデバイス&サービス担当上級副社長。2010年の入社以来、キンドル、ファイアTV、ダッシュボタン、エコー、アレクサなど、自社デバイスと関連するサービスの開発、販売に携わり、現在は一連の事業を統括(撮影:尾形文繁)

開発を進める中で、特定の利用状況においてはディスプレーがあったほうが快適になるとわかった。たとえば、通信・コミュニケーションがそうだ。遠く離れたところに住む家族とすぐにビデオ電話でつながれるのは、すごく便利だ。

われわれはこういったケースがわかるとすぐに、ディスプレー付きの製品を作ろうと決めた。すべては具体的かつ必要なケースがあるかどうか。何か(新しい機能)を付けるには、説得力のある理由が必要だ。これはすべてのコンピューティングに通ずる考え方でもある。

――アマゾンはエコーに限らず、さまざまなデバイスを自社で開発している。ECの会社であるアマゾンが、自社でデバイスを手掛ける意義は何か。

ECはアマゾンの一側面に過ぎない。アマゾンにおけるデバイス開発は、ただガジェットやデバイスを作っているのではなく、全体の文脈、つまりデバイスと(それに付随する)サービスの両方を合わせて考える。ガジェットを作ることを核とする会社は、ユーザーへのアップデートのために毎年新製品を出す必要があるが、アマゾンはそうではない。

われわれが作っているのは、クラウドを通じて改良し続けられる製品だ。その先駆けがキンドルであり、とてもいい例だろう。「Fire TV(ファイアTV)」もそうだ。コンテンツやアプリケーションをどんどん増やすことで、より便利なサービスへと刷新していく。これがアマゾンのやり方だ。