Simejiの音声入力はSiriやGoogle並みの正確さ、背景にBaiduの莫大なAI投資。どうなる?音声データの個人情報
▲SimejiのAndroid版は音声入力に対応。iOS版もまもなく対応

6月14日、Baiduが発表会にて日本語入力キーボードアプリ「Simeji」の音声入力機能について詳細を発表しました。

かつて日本ではSimejiが入力データを許可なくサーバーに送信していることや、Baiduが提供する別のSDKにバックドアがあることが報じられ、大きくイメージダウンした経緯があります。しかしBaiduによるAIへの莫大な投資を背景に、若年層を中心として日本でも存在感を取り戻しつつあります。

若者の話し言葉も認識、句読点も自動化

Simejiの最新の状況としては、累計でAndroid版が1550万、iOS版が1150万、合わせて2700万ダウンロードを達成したとのこと。特に10代の若者に、キーボードの背景画像を変える「きせかえ」機能などが受けています。


▲背景画像を変える「きせかえ」や、ゲームやアニメ用語にも対応した「クラウド超変換」が若者に人気とのこと

そのSimejiが新たに「音声入力」に対応。Android版には搭載済みで、iOS版も6月下旬から7月以降に提供予定となっています。

とはいえ、すでにiOSにはSiriが、AndroidでもGoogleによる日本語の音声入力が提供されています。わざわざSimejiを使う必要があるのか、最初は筆者も懐疑的でした。

しかし実際に音声入力するデモを見てみると、その精度は予想以上。若年層が日常的にSNSで使いそうな言葉を、しっかり認識できていることが分かります。ところどころに誤りはあるものの、SiriやGoogleにも見劣りしない精度とスピードです。


▲Simejiによる音声入力のデモ。若者の話し言葉をしっかり認識できている

文中に含まれる絵文字や顔文字については、数百種類の中から入力内容に応じたものをSimejiが候補として表示。そこから手動で選択しています。


▲「マジ無理ゲー」ぐらいになると誤認識も増えてくるが、それほど無理ゲーではなかった。

▲筆者が試してみた結果がこちら。「機能」が「昨日」になったものの、なかなか実用的

他社にはない便利な機能として「句読点の自動入力」にも対応します。たとえばSiriの場合、句読点を発音して入力できるものの、真面目な文章の中で「てん」や「まる」と発音するのはいかにも間抜けです。そこでSimejiは深層学習モデルにより、適切と思われる場所に句読点を自動挿入しています。

音声入力は、声を発しづらい場所で使えないという弱点はあるものの、若年層からの需要は確実に高まっているようです。「若者のキーボード離れ」が進む中、将来的にはソフトウェアキーボードさえも使用頻度が下がるのではないか、という予感がしてきます。

日本語の音声認識でもBaiduが急速に追いついてきた

なぜ、Simejiの日本語音声入力はここまで高い精度を実現できたのでしょうか。その背景には、Simejiの提供元である中国Baiduによる人工知能(AI)への莫大な投資があります。

その音声認識の精度は、中国語ではすでに97%以上、日本語でも90%に達したとのこと。雑音が入っていたり、他の人の話し声が混ざっていたりと、人間なら思わず聞き返してしまいそうな場面でも、BaiduのAIはしっかり聞き分けて処理できる強みを持っています。


▲中国語の認識精度の伸びを示すグラフ。音響モデルの研究は続いており、まだ向上の余地があるという

最近ではグローバルのIT企業がAIの開発競争を繰り広げる中、Baiduは中国語で高い精度を実現していたモデルを日本語に転用することで、一気に先頭集団に追いついてきたといえるでしょう。

ただ、気になるのは入力した音声データに含まれる個人情報はどうなるのか、という点です。Baiduの日本法人では、他のクラウドサービス同様にAIの精度を高めるための「教師データ」として活用していくものの、個人を特定する情報は収集しないことをプライバシーポリシーにて定義している、と説明しています。