写真提供:マイナビニュース

写真拡大

●音声対話システムに人間らしさを持たせる新技術
音声対話システムを備えたロボットを見かける機会は増えているが、いざ話しかけてみると、返答の一本調子な音声に興醒めしてしまうことがある。見た目が人間に近く、高度な内容の会話にも対応可能な人型ロボットであった場合、機械的な音声を発することで感じる違和感は尚更だ。その違和感に着目したヤマハが、音声対話システムに「人間らしさ」を与えるべく開発した自然応答技術「HEARTalk(ハートーク)」。この技術は、音声対話システムの在り方にどのような影響を与えるのだろうか。

○音にこだわるヤマハならではの技術

人間同士が会話する場合、聞き手は発話者の声の強弱、長短、高低、間、抑揚といった「韻律」を感じ取り、発話者の調子に合わせて応答の韻律を変化させる。ヤマハのハートークは、発話者(人間)の声の韻律を聞き分け、音声対話システムによる応答に変化をつける特許出願中の技術だ。

ハートークと連動した音声対話システムは、音声処理技術を用いて人間の声をリアルタイムに解析し、声の音程、周波数、話すスピードなどを読み取ったうえで、音声合成による返答に適切な韻律を持たせる。会話の意味ではなく、会話の調子を感じ取ることに特化した技術といえる。

○既存の音声対話システムに組み込むビジネスモデル

ハートークの主な用途としては、既製の音声対話システムへの組み込みを想定している。例えばロボット、スマートフォン、カーナビゲーションシステム、玩具などへの展開が考えられる。ハートークはあくまで韻律に関する技術であるため、会話の意味を読み取る音声認識技術はフュートレック、音声合成技術はNTTアイティのものを活用する。

ビジネスとしては、まずは「相槌」に特化したソフト・ハードのライセンス供与からスタートする。人間の問いかけ音声に合わせて、自然な韻律で「うん」や「はい」といった相槌を打つ仕組みを企業向けに売り込む。ソフトウェアライセンスの提供先としては、すでに音声対話システムを自社開発している法人を想定。ハードウェアの方は、基盤モジュール、参考回路図、参考サンプルプログラムの3つを提供するビジネスモデルとなる。基盤モジュールは一辺が約2cmと小さく、玩具などへの組み込みに向いていそうだ。

音声認識と音声合成にハートークが連動したフルパッケージの音声対話システムは、2016年内に提供を開始する予定。では、ハートークはどのような企業に訴求するのだろうか。

●人間らしい音声対話システムが必要な領域とは?
○既存システムの高付加価値化に商機

音声対話システムを開発・展開している企業にとってみれば、自社のシステムに「人間らしさ」という特徴を付け加えられるハートークは魅力的な“プラスアルファ”に映るかもしれない。例えばSiriを展開するアップルのような企業が、自社のシステムにハートークを取り入れたいと考える可能性もあるわけだ。

アップルから商談が舞い込んだと仮定した場合、対応はどうなるのか。ハートークの考案者でもあるヤマハの松原氏に聞くと、ヤマハ自身がアップルとやり取りをしてもいいし、フュートレック経由で話をすることも可能という回答だった。ヤマハはフュートレックおよびNTTアイティと排他的な契約を結んでいるわけではないため、ハートークに関心を抱く企業とヤマハが直に取引を行うケースもありうる。

ちなみにハートークの技術は、日本語以外の言語にも技術的には適用可能で、ヤマハでは研究が進んでいるという。しかし、言語が違えば韻律も大きく変わるため、多言語対応は「相当難しい」(松原氏)というのが本音のようだ。

○人間らしい音声対話システムを必要とする領域とは?

ハートークと親和性の高そうなのがロボットだ。特に人間そっくりの人型ロボットについては、ハートークとの連動により印象が一変してしまう可能性がある。人工知能と連動する人型ロボットが、対話の相手と調子を合わせて喋る能力を身に付ければ、その「人間らしさ」はかなり高まるだろう。

一方で、ハートークの普及には乗り越えるべき課題もあるように感じる。何らかの疑問を持つユーザーが音声対話システムに話しかける際、求めるのは適切な回答であって、適切な「韻律」を重視するかどうかは人それぞれだからだ。

ハートークは音声対話システムを根底から変えうる技術かもしれないが、実際に普及するかどうかは現時点で未知数。「人間らしい音声対話システム」を本当に必要とする領域はどこか。ヤマハらが探り当てられるかどうかに注目したい。

(藤田真吾)