「日本発、「音声感情解析」のスタートアップに世界が注目」の写真・リンク付きの記事はこちら

欧州の金融ハブであり、ビジネスの要所でもあるルクセンブルク。神奈川県ほどの面積の国土のなかには世界28カ国の銀行約140行があり、スカイプ本社、楽天、アマゾンといったテック企業や宇宙関連企業が拠点を構えている。しかも近年はブレグジットの影響もあって、その数が増加中だ。

「ICT Spring」は、そんなルクセンブルクで毎年開催されるICTカンファレンスである。

2日間にわたって開催されるこのイヴェントには、世界70カ国以上から約500社の企業と5,000人以上の参加者が集まる。100人以上のスピーカーのなかにルクセンブルクの首相や財務相が名を連ねているあたりからも、この国がいかにICTに力を入れているかがうかがえる。

このICT Springのピッチコンテストで今年、ある日本企業が優勝した。

世界各国からの応募企業180社の頂点に立った、その企業の名はEmpath(エンパス)。「音声感情解析」という聞き慣れない技術の開発を行っているスタートアップである。

47カ国700社が使う感情解析システム

音声感情解析技術とは、その名が示す通り、音声から人の感情を解析・認識する技術だ。人が話す速さやピッチ、トーンなどをAIに解析させることにより、リアルタイムで「喜び」「平常」「怒り」「悲しみ」の4つの感情と元気度を判断する。

クルマの車内といった雑音環境でも、その精度は75パーセントとかなり高い。また、話者が話した内容ではなく、声の物理的な特徴を解析するため、言語に依存しないのが特徴だ。

Empathがもつこのニッチな技術が、いま世界中から注目されている。

「最終候補企業15社は、どれもマーケットが必要とする解決策やプロダクトをもっている。そのなかでも、Empathはユニークで大きな可能性をもつ企業として突出していました」。今回のピッチコンテストの審査員のひとりはそう話す。優勝後、コンサルティングファームから新規事業やデジタル事業で活用したいという問い合わせも来ているという。

Empathの感情解析システムを使っている企業は、47カ国の700社。最近は、音声アシスタントを開発している米国のテックジャイアントたちとも話を進めているという。また17年には、アラブ首長国連邦内務省が進める「幸福事業」での活用も決まった。ドバイ政府内のシステムにEmpathの技術を導入し、幸福度を測るための客観的なデータ収集に活用するという。

“So What”への答え

それにしても「声から感情がわかる技術」が、なぜここまで注目されるのだろうか?

「この手のテクノロジーは面白がられるのですが、『で、どうやって使うの』という“So What”の質問に答えていくのがすごく難しいんです」。Empathで最高戦略責任者(CSO)を務める山崎はずむはそう話す。

Emapthが最初に目をつけたのは、メンタルヘルスケアの分野だった。

例のひとつは、東日本大震災でのメンタルヘルス支援だ。NTTドコモの協力のもと、Empathは被災者支援スタッフに配られたタブレット端末に音声解析ツールを導入し、スタッフの心のケアに役立てた。

また別の例は、オペレーターの離職が激しいコールセンターへの導入だ。オペレーターの声を分析することによってストレスを早めに察知し、離職前に対処しよう、というのが本来の目的だった。

しかし、これが思わぬデータにつながる。

「やっているうちに『お客さんは悲しみが続いているとモノを買いやすい』といったセールスに使えそうなアイデアが出てきたんです」と、山崎は言う。これをきっかけに、Empathは自社の技術を音声インターフェイスによるeコマースで活用することを思いつく。

「Alexa」や「Cortana」、「Google アシスタント」、「Siri」といった音声アシスタントは、わたしたちの生活にどんどん浸透してきている(最近ではシャオミやIBMも新しいアシスタントを発表した)。そして、音声インターフェイスとeコマースの組み合わせは、スマートスピーカーのメーカー各社が試行錯誤している分野[日本語版記事]だ。そこに何かしらのヒントを与える技術は、どこに行っても重宝される。

また、最近は音声アシスタントがクルマにも進出している。そこに感情分析技術を加えれば、自動車事故の防止にもつながるかもしれない(「クルマに長話なんてしない」と思うかもしれないが、Empathの感情解析に必要な音声は最短で10ミリ秒だ)。

Empathはこうした利用事例を、まずは技術を投入することによって広げてきた。「感情がわかること自体はキーではありません。ほかのデータとつなげていったときに、どう売上や重要なKPIに跳ね返らせるかが重要なんです」と、山崎は言う。

リアルタイムで4つの感情と元気度を判断するEmpathの感情解析技術。最短10ミリ秒で話者の感情を判断する。PHOTOGRAPH COURTESY OF EMPATH

避けては通れないデータの問題

Empathの技術は「アフェクティヴコンピューティング(affective computing)」と呼ばれる分野のものだ。感情コンピューティングという名の通り、声や表情、仕草、行動などを手がかりにコンピューターに人の感情を理解させたり、コンピューターに感情を表現させたりする技術を研究する分野である。

1997年にマサチューセッツ工科大学(MIT)のロザリンド・ピカードが唱えて以来、この技術にまつわる研究やスタートアップは着々と増えてきた。アップルの「Animoji」[日本語版記事]や、言語分析によってテキストから感情と文体のトーンを検出するIBMの「Tone Analyzer」、皮膚電位によっててんかんを予測するEmpaticaの「Embrace」[日本語版記事]に使われているのも、この分野の技術である。

コンピューターに人の感情を理解させる際には、学習用の音声データが必要になってくる。EmpathはAPIを無料で提供する代わりに、音声データを受け取っている。その音声データを複数の評価者に聞かせ、意見が一致したものをトレーニングデータとして使用する仕組みだ。

ただ、これにはAIスタートアップの多くが直面する問題[日本語版記事]がついてまわる。人手とコストだ。

「表情解析にはFACSという理論があるので、専門家がその理論に基づいてコーディングします。ただ、音声にはそれがありません」と、山崎は話す。Empathは、ゆくゆくはアノテーション(注釈)の自動化も考えているというが、いますぐにはどうにもならない問題だ。

「だからこそ、みんなやりたがらないというメリットもありますけどね」と山崎は言う。現在のところは、社内やボランテイアによるタグ付けが行われているという。

目指すは感情解析の専門商社

いくら手間がかかるからといって、音声認識の分野は盛り上がりつつある。これから競合も増えていくだろう。しかし、Empathは音声感情解析にとどまるつもりはないという。

「表情感情分析や音声感情解析など、バラバラのパーツは出ています。しかし、それらを組み合わせた統合アルゴリズムは、誰ももっていません。それをどう合わせて解釈するのかという問題がありますよね」

例えば、顔は笑っているのに声に震えがある場合。顔と声それぞれを認識する技術はあっても、総合したときの感情を「喜び」とするのか「悲しみ」とするのか。コンピューターには、それを判断するすべはいまのところないのだ。

「音声感情解析を研究しつつ、異なる技術と組み合わせたときの解釈まで研究できれば、ほかの技術との接続性もできます。それを解釈するアルゴリズムをつくるのは人間なので、そこがいまのハードルです。でもゆくゆくは、感情ベースで行動分析をする専門商社のような存在になりたいと考えています」RELATED急速に発展する宇宙産業の勢いを、ルクセンブルクに見た:カンファレンス「NewSpace Europe」現地レポート