写真提供:マイナビニュース

写真拡大

音声認識ソフトウェア大手のNuance Communicationsが自社の音声認識技術を活かすためのノイズ抑制ソフトウェア技術を次々と開発している。最大の応用はクルマである。ハンズフリーで通話したり、クルマそのものと話をしたりできるようにするためだ。音声がクリアであればあるほど認識率は上がり、通話やクルマとの会話がスムーズになる。

1990年代後半、Bluetoothのヘッドセットを耳にかけ、車内で通話することが欧州を中心に広まっていた。運転中に電話を持って通話することに対して欧州では厳しく罰せられたためだ。おかげでBluetoothチップやモジュールが爆発的に売れ、欧州はBluetooth先進国となった。運転中の電話に関して次に厳しい米国でも2000年代に入りBluetoothが普及していった。欧米は飲酒運転並みに電話を持った運転に対しては厳しかったが、日本はずっと緩い。今でも電話やスマートフォンを持ちながら運転しているドライバーを時々見かけることがあるが、交通警察の取り締まりは極めて甘い。だからBluetoothが流行らなかった。最近スマホのおかげでBluetoothが普及してきたが、運転に関しては相変わらず取り締まりが緩い。

欧米ではBluetoothヘッドセットから、ハンズフリーへと進化している。そのカギとなる技術は音声認識。ただ、クルマの中ではエンジン音だけではなく、回転しているタイヤの音、道路の凹凸によるノイズ、風切り音などさまざまなノイズが生じる。このためドライバーの声はマイクで拾うことが以外と難しい。クリアな声や音だと認識するが、ノイズが混じってしまうと人間でさえも聞き取りにくいのに、ましてや機械ではなおさら認識できない。

そこで、Nuanceはクルマで走行中のあらゆるノイズに対処する技術の開発を行ってきた。同社はこのほど、クルマの中で音をハンズフリーで認識するためのノイズ抑制技術を3種類ほど披露した。1つは、ノイズ抑制のアルゴリズムを駆使してマイク1個でノイズを削減する技術であり、これを基本とする。さらに同乗者が話をしていてもドライバーだけの音声を拾えるようにした2マイクの技術、そしてバンのような大型のクルマではドライバーや助手席の声が最後部では聞こえにくいといった問題を解決する2マイクの技術だ。

音声認識ソフトウェアをコアとするビジネスを行ってきたNuanceは、ノイズ抑制に関してもやはりソフトウェアで行っている。スマホなどでは2個のマイクで音を拾い、一方の音の位相を180度反転させることで雑音を打ち消し合う方法があるが、クルマの中ではさまざまなノイズがあるため、あまり有効ではなさそうだ。

Nuanceの技術「SSE(Speech Signal Enhancement)」はマイク1個だけで対応し、アルゴリズムを考案してノイズを削減する。だからハードウェアとしてのマイクは1個で十分。しかもある程度の音量なら音楽がかかっていても、あるいはたくさんの人が乗って話をしていても、ノイズを押さえられるという優れモノだ。クルマの中での人間の音は、車内の壁に反射して時間的に少しずれてマイクに入る訳だが、あらかじめどのような反射モードが跳ね返ってくるのかを求めておき、その反響音パターンを打ち消すようなアルゴリズムや、音声ガイダンスと音楽が重なる場合を想定してそのパターンを抑制し、ドライバーの声だけを強調するようなアルゴリズムを使っているようだ。

さらには、定常的に大きな騒音を抑制すると共に、突出したような非定常的な騒音、クルマでの風切り音、凹凸のある道を想定した非定常ノイズなど、いろいろな場面でのノイズを抑制するアルゴリズムを使っている。マイク1個で携帯電話を置き、ハンズフリーで通話する場合は図1のような回路ブロックで動作する。

ドライバー席とその隣の助手席のそれぞれにマイクを置き、2本のマイクを使う場合も同じようにアルゴリズムでノイズを抑える手法を使う。マイクにはある程度指向性があるため、助手席のマイクはそのすぐ前方上に設置し音声を拾い、同様にドライバーの音声も拾う。マイクの設置場所に制約があり、マイクを並べて設置しなければならない場合には、音源を分離するためのビームフォーミングを行い、ドライバーのマイクと助手席のマイクを実質的に分離する。

実際のノイズ抑制波形を図2に示す。ここではノイズを抑制しない場合、次は定常的なノイズを抑制した場合、そして定常ノイズと非定常ノイズを抑制した場合を示している。ノイズ波形がそれぞれの段階で減少していることがわかる。

同社のノイズ抑制アルゴリズムはさまざまな音の特性を測定し、そのパターンを学習するというその手法をアルゴリズムにする。同社は自動車産業に特化している訳ではないが、自動車産業を通して実績が蓄えられてきたとする。

助手席の人が話をしていてもドライバーの声をしっかりとらえるという「PIC(Passenger Interference Cancellation)技術」も開発している。従来なら、音声コマンドを発する時は同乗者に対して静かにするように注意をしなければならなかったが、この技術を使えば、その必要はなくなる。図3のように、これまでの技術と同様に、まず反響音を抑制したのち、PIC処理を行う。PIC処理では、ドライバーのマイクはドライバーの声を捉えると同時に、マイクに指向性があるため、小さな声の助手席の声で、助手席のマイクを通った声を打ち消し合う。

このPIC技術を使えば、例えば4人乗りでは4つのマイクを用いて、4名それぞれの声だけを認識することもできる。その場合、音楽をかけていても構わない。ただし、どの人の音を拾うべきか、システムが判断できるようにするため、あるコマンドを言う。iPhoneで「Hey, Siri」と叫んでから音声入力する場合と同じである。デモでは「Hello Tetra」という言葉を発したが、このコマンドワードは自由に設定できる。

Nuanceは、さらに車内の声をより聴きやすくするため、ドライバーと助手席に2つのマイクを置き、それぞれの声を発する時に音を拾いそれをバンなど大型車の後部座席にいる人の傍のスピーカーから流すことも行っている。「ICC(In-Car Communication)」と呼ぶ、この増幅技術は、前方席と後部座席では聴覚的に-5〜-15dBの音の差が生じることからスピーカーを通して声をかけるもの。ICCを使えば、前方にいる人がわざわざ後ろを振り向かなくても音を伝えることができる。この機能は、2014年末にメルセデスのマイバッハSクラスに搭載された(図4)。

Nuanceの音声認識技術「Dragon Drive」は、音声認識エンジンを搭載しコンテンツ配信も行うソリューションであり、これからのクルマに搭載されていくだろうが、実際に搭載されるのには時間がかかる。音声認識技術を活用するために必要なノイズ抑制技術SSEは、AudiやBMW、MINI、Chrysler、トヨタ自動車、日産自動車、スズキ自動車なども採用を検討しているという。

(津田建二)