by mentatdgt

音声による文字入力はスマートフォンに搭載される一般的な機能となりつつありますが、音声を文字に反映するまでのタイムラグが気になるという人も多いはず。Googleは新たに完全オフラインで機能する音声認識システムを開発し、音声入力の過程で発生するタイムラグを最小限に抑えることに成功したと発表しました。

[1811.06621] Streaming End-to-end Speech Recognition For Mobile Devices

https://arxiv.org/abs/1811.06621

Google AI Blog: An All-Neural On-Device Speech Recognizer

https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html

Google’s new voice recognition system works instantly and offline (if you have a Pixel) | TechCrunch

https://techcrunch.com/2019/03/12/googles-new-voice-recognition-system-works-instantly-and-offline-if-you-have-a-pixel/



音声認識システムの開発はここ数年で大きな進歩を見せており、ディープラーニングやリカレントニューラルネットワークといったアーキテクチャの開発によって音声認識システムの精度やスピードが向上してきました。しかし、依然として自分の口で言葉を発してから、スマートフォンなどのデバイスが音声を認識して文字に起こすまでのタイムラグの問題が残っているとのこと。

音声入力を行う際に発生する遅延は、入力された音声をスマートフォンから音声認識サービスのサーバーに送信し、サーバー上で音声を分析して文字に変換してスマートフォンまで送り返すという作業によって発生します。1秒ほどの遅延でもスムーズな入力が疎外され、使用者にとってストレスがたまる状況ですが、時と場合によってはさらに長い遅延が発生することもあります。

いったいなぜデバイス上で音声認識処理を行わないのかという疑問を持つ人も多いはずですが、ほんのミリ秒単位で音声をテキストに変換するためには膨大な計算能力を必要とするそうです。また、単に音声を文字に直せばいいだけでなく、文脈に応じて入力者の意図した言葉を選択する必要も出てきます。



by Adrianna Calvo

そこで、Googleは自然言語処理の分野で高い成果を挙げているアルゴリズムの再起型ニューラルネットワーク(RNN)トランデューサーを用い、スマートフォンに搭載できるほどコンパクトな音声認識システムを開発しました。サーバーとのやり取りを必要としない音声認識システムのため、遅延が従来の音声認識システムと比較して少なく、オフラインでも機能するとのこと。

RNNトランデューサーは文字を出力するために入力音声全体を処理する必要がなく、入力サンプルを連続的に処理していくという特徴があります。このモデルは単語エラー率を低下させて実用に耐えうるレベルにまで訓練することが困難でしたが、新たな(PDFファイル)訓練モデルが開発されたことにより、従来よりも効率的にモデルを訓練することが可能になりました。

しかし、完成した音声認識システムは450MBもあったため、Googleはニューラルネットワークのパラメーターを量子化する技術を用いてデータを最小限に圧縮。その結果、最終的にわずか80MBまで音声認識システムを圧縮することに成功し、スマートフォンに搭載できるレベルにすることができました。

以下の画像をクリックすると、サーバーとのやり取りを要する従来の音声認識システム(左)と、Googleが新たに開発したスマートフォン搭載音声認識システム(右)の入力速度の差を表したGIFムービーを再生可能。両者で入力速度にかなりの違いが出ていることがわかります。



今のところ、Googleが開発したスマートフォン搭載音声認識システムはアメリカ英語のみ音声入力可能で、Google製のキーボードアプリであるGboardでしか動かず、端末もGoogleのPixelシリーズにしか対応していないとのこと。しかし、今後さらにデバイスとアルゴリズムの改良が進み、幅広いアプリケーションに新しい音声認識システムが対応することを期待すると、Googleの開発チームは述べています。



by nastya_gepp