自動で文字起こしするボイスレコーダー「AutoMemo」 その実力を検証(石野純也)
音声認識機能に対応したAIボイスレコーダーのAutoMemo
Engadget Japan

翻訳機の「POCKETALK」で大ヒットを飛ばしたソースネクストが、音声認識を活かした新しいデバイスを発売します。それが、AIボイスレコーダーをうたう「AutoMemo」です。デバイスの特徴は非常にシンプルで、録音した音声が文字として表示されるというもの。精度が他かければ、取材の音声の文字起こしに苦しんでいる多数の同業者(筆者調べ)には、福音となるアイテムと言えそうです。では、その実力はどんなものなのでしょうか。発表会で配布された試用機を、実戦に投入してみました。

最初に外観から。本体サイズは一般的なボイスレコーダーの普及期と比べると、大きめです。縦の長さはiPhone 12や12 Proよりやや短いぐらい、横幅はそれよりずっとスリムで手のひらに握れるサイズ感です。数値は、高さ130mm×幅41mm×厚さ12mm。ボイスレコーダーとしては大ぶりですが、機能面を考えると致し方ないところです。

iPhone 12 Proとのサイズ比較。ボイスレコーダーとしては大きめ

逆にデザインはシンプルを極めていて、前面にはボタンが2つ、側面にはボタンが1つしかなく、一見しただけでは、それぞれが何のボタンなのかが分からないほどです。ボイスレコーダーによくあるディスプレイはなく、設定などはすべてスマホ経由で行います。録音した音声の再生も単体では行えず、いったん音声ファイルをWi-Fi経由でクラウドにアップしてから、それをスマホ側から参照する形になります。ちなみに、スマホは常時併用しなければいけないわけではなく、初期設定が済んでしまえば、後は単体で動作します。

ボタンは正面の2つと側面の1つだけで、ディスプレイは非搭載

一般的なボイスレコーダーは、録音と再生がデバイス内で完結しますが、AutoMemoは、あくまで録音専用機。スマホなど、他のデバイスがなければ音声を聞くことができない点には注意しましょう。イヤホン端子のようなものが底面にありますが、こちらは外付けのマイクを接続するためのものになります。

操作もシンプルそのもので、いったん設定さえしてしまえば、後は側面の電源キーを長押ししてから電源を入れ、正面上部の録音ボタンを押すだけ。録音開始時には、ボタンに埋め込まれたLEDが、円を描くように点灯します。あくまで光るだけのため、今現在、どのような状態なのかが少々分かりにくく、本当に録音されているのかちょっと不安になることはありますが、複雑な操作は必要ありません。重要なところでは、録音ボタンの下にあるブックマークボタンを押すと、そこにチェックがつき、後から検索しやすくなります。

録音データや起こした文字、設定はすべてスマホで行う

では、肝心の文字起こしの精度はどの程度でしょうか。まずは、Engadgetに先週掲載された筆者自身の原稿を、半分ほど読み上げてみました。結果はご覧のとおり。何カ所か間違いはありますが、通しで読めば、内容は分かるのではないでしょうか。段落ごとにブックマークをつけていたため、適宜改行されて、きちんと読むことができます。

自分で自分の原稿を読み上げてみたところ、比較的正確に再現できた

この精度ならば、と思い、次はオンライン会見にもAutoMemoを投入してみました。しかしながら、先ほどとは打って変わって、変換精度が芳しくありません。例えば以下は、楽天の決算会見の質疑応答の一部を文字起こししたものですが、筆者の質問はしっかり文字になっていたものの、楽天側の回答が大きく飛ばされてしまっています。報道陣向けの質疑応答全体を文字化したものもありますが、20分強の音声にしては、テキストデータがかなり短め。どうやら、かなりの部分が文字になっていなかったようです。

筆者の質問部分にもかなり間違いが多い上に、回答がほぼ省略されてしまった

この決算会見はiPadで視聴し、音声はスピーカーから出力していましたが、あまりそことの相性がよくなかったようです。AutoMemoのすぐ近くにいた筆者の質問と、スピーカーから流れてくる楽天側の音声のギャップが大きく、この結果だとやはり自分で入力したメモを頼った方がいいという結果になりました。

オンライン会見でなければ、もう少し結果がよくなるかもしれないと思い、リアルな記者会見の場でも試してみました。ただ、こちらも取りこぼしがあり、文字認識の制度はあまり高くない印象。文章を読み上げているようなところは比較的正確に文字になっている一方で、質問者や回答者が自由に話すようなシーンはあまり得意ではないことがうかがえます。画面はお見せできませんが、インタビューの場でも、傾向は同じでした。

会見中の言葉は割とテキストになっている一方で、元原稿がないと思われる質疑応答は少々厳しい結果に

最初のケースのように、いったん文章化したものを読み上げると、比較的きちんと文字にしてくれる一方で、口語はあまり得意ではないのかもしれません。特に日本語の場合、口語と文語の差が大きく、口語では、文法が無視されたり、途中で文が飛んでしまったりするのが一般的。テープ起こしをした経験がある同業者なら、首を1000回ぐらい縦に振ってくれると信じていますが、話されたことを一言一句間違えずに文字に起こしても、何を言っているのかよく分からない文章になってしまうことは多々あります。

筆者は日本語と英語ぐらいしか分かりませんが、どちらかと言うと、英語の方が話し言葉をそのまま文章にできるような印象があります。英語の文字起こしアプリ「Otter.ai」を使うと、かなり正確に文字化され、文意もきちんと読み取れますが、日本語だとなかなかそうはいきません。残念ながら、AutoMemoでも、文意を解釈してある程度正確な文語体にするというのは難しいようです。

とは言え、まったく使いものにならないかというとそうではなく、キーワードはきちんと拾っているため、検索には活用できます。例えば、例えば「LTE」や「5G」といった技術用語だったり、「楽天」や「ジュピターテレコム」といった企業名だったりは比較的正確に拾っているため、後から必要な音声データを呼び出したいときには重宝しそうです。数字も単語レベルではしっかり認識されていて、確認のために音声を聞き返すといったシーンでは役に立ちます。

キーワードで検索して、必要な音声データをすぐに呼び出す際には役立つ

数字の聞き返しにも便利だ

Engadget Japan

今回は、20分から1時間程度の記者会見で試してみましたが、もう少し短いやり取りであれば、より文字起こしが正確になる可能性があります。コロナ禍で激減してしまいましたが、展示会で説明員と短い質疑応答をして、それを文字化するという使い方はできそうです。AutoMemoというデバイス名のとおり、メモとして使うというわけです。過度の期待は禁物で、使いどころも選びますが、その性能をきちんと生かせる場面はありそうです。

使い勝手の面でも、改善してほしいところがあります。まず、Wi-Fiが2.4GHz帯のみの対応になっているため、5GHz帯でネットワークを組んでいる筆者の環境では、接続に苦労しました。アクセスポイントを再設定するのが面倒なので、結果的にはiPhoneのテザリングに頼ることにしましたが、録音終了後に都度テザリングをオンにするのは面倒です。

Wi-Fiが2.4GHz帯のみのため、iPhone 12 Proのテザリングに頼ることにした

ただし、テザリングの場合、出先で録音したあとすぐに、音声や文字の確認ができて、逆に便利だと感じたこともありました。特にAutoMemoの場合、ディスプレイもなければ、音声出力もないので、その場ですぐに録音したデータを確認できません。このようなときには、やはりモバイルネットワーク。コストが上がってしまうのかもしれませんが、POCKETALKがそうであったように、AutoMemoにもSIM搭載モデルがあってもいいのでは……と感じた次第です。

外部サイト