iPhoneの文字起こし速度、Pixelに完敗。SiriとGoogleアシスタントの性能差?
iPhoneとGoogleのPixelスマートフォンともに音声による文字入力、いわゆる文字起こしは可能です。それら2つの文字起こしスピードを比較して、Pixelがはるかに速いことが示された動画が公開されています。
開発者であり技術投資家のJames Cham氏はiPhoneとPixelスマートフォンを並べ、2つ同時に文字起こしさせて比較する動画をTwitter上に投稿しています。かなり速いしゃべり方にPixelはすぐに追いついていますが、対してiPhoneはモタ付き気味で、みるみる差が広がっていく様が確認できます。
I don't think that people appreciate how different the voice to text experience on a Pixel is from an iPhone. So here is a little head to head example. The Pixel is so responsive it feels like it is reading my mind! pic.twitter.com/zmxTKxL3LB
- James Cham ✍🏻 (@jamescham) May 27, 2020
これを評してCham氏は「Pixelはとても反応がいいので、私の心を読み取っているように感じます」との感想を述べています。
ちなみにコメントを付けているTwitterユーザーの1人は、iOSにてGoogle製の文字入力アプリ・Gboardを使った場合はPixelに近い速度が出ると実演しています。すなわち、iPhoneとPixelのハードウェア的な差異ではなく、アップルのSiriとGoogleの音声認識エンジンの性能差とも推測されます。
Fun fact you may be aware of: you can achieve near-Google-level transcription with Gboard on iOS! It's hampered on iOS by needing the app to run in the background but I like it better than Apple's transcription in many cases pic.twitter.com/eFRsoudhZH
- Andrés Cuervo (@cwervo) May 27, 2020
iPhoneの文字起こし速度であっても、実用的には不便を感じることはほぼないはず。とはいえ、Cham氏は音声認識エンジンはそれだけで完結するものではなく、「(そこを起点にして命令を実行する)コマンドラインのようなもの」だと指摘。すなわち音声からテキストへの変換が高速になるほど、真にインタラクティブな音声による(AIアシスタントとの)やり取りができる可能性があるというわけです。
その意義を分かりやすく説明しているのが、アップル系ブログ「Daring Fireball」を主催するJohn Gruber氏です。同氏はアップルの文字起こし機能が「悲惨なほど遅れを取っている」としつつ、文字変換効率の改善は「あらゆる種類のスタートレックレベルでの操作が可能になる」(SFドラマ『スタートレック』ではコンピュータに話しかけることでワープから未知の物体スキャンまで可能)とコメントしています。
すなわち音声認識のレスポンス向上は、人間と音声アシスタントのやり取りをスムーズにするということでしょう。アップルはここ数年、AIやその周辺技術を持つ企業の買収を繰り返していますが、先日の機械学習スタートアップ企業Inductivの取得はSiri強化のためとの見方が有力です。今回の音声認識におけるネックも、アップル社内で切実に受け止められているのかもしれません。
Source:James Cham(Twitter)
Via:9to5Mac