LINEから音声書き起こしツール「CLOVA Note」登場! これまでの取材データを読み込んでみた

写真拡大 (全10枚)

「CLOVA Note」とは、LINEが開発に取り組んでいるAIプラットフォーム「LINE CLOVA」の新アプリ。AI音声認識アプリとのこと。

筆者はビリヤード雑誌の取材でプロにインタビューすることが多い。
そこで、まずはこれまでの取材の録音データをこのアプリに取り込んでテキスト化してみた。

LOVA Noteはすでにある音源を取り込んでテキスト化するだけでなく、始めから本アプリで録音しながらテキスト化することもできる。

なお、このアプリはAndroid用、iOS用の両方が用意されている。
パソコンではWeb版が利用できる。


●まずは音源を取り込む
音源を取り込むのは簡単。
まず、導入したCLOVA Noteの「+」マークを押して、録音を開始するかファイルをアップロードするかを選ぶ。
wavなど音声ファイルと思われるファイル一覧が並ぶのでそこから選ぶだけ。
筆者は取材用に「PCM録音」というアプリを使っているので、そのアプリで録音したリストが並ぶ。


アプリの「+」マークを押して「ファイルアップロード」をタップする



一覧が表示されるので、アップロードしたいファイルを選ぶ



音声の種類や参加人数を選択する



まずはアップロード、そして変換が行われる



テキスト化完了。下の三角を押すと音声再生が始まる



●音声テキストをダウンロードする
音声記録テキストは、ダウンロードして自由に編集できる。この場で編集することも可能だ。


右上のメニューボタンをタップし、「音声記録のダウンロード」を選ぶ。時間記録を含むかどうかを選択。



ダウンロードフォルダーを指定して「保存」をタップすると、テキストがダウンロードできる



アプリ上で編集することもできる



●肝心の精度は?
・複数人の認識精度
今回はインタビューの音声データなので、参加人数を2人とした。
「AIで参加者の声を区別する」と公式ページには書いてあるが、これについては精度が良いとは言い難い。インタビュアーもインタビュイー(取材を受ける側)も両方女性だったということもあるかも知れないが、声色の違いで切り分けをしてくれているとは思えない結果だった。

・音声→テキストへの変換精度
こちらについては、なかなかの精度ではないかとの印象だ。
インタビューなのでどうしても途中で「はい」や「ええ、そうですね」などの相づちが録音されているが、それらもかなりきちんと拾っている。

相づちを削除し、途中で人が入れ替わっているものを無視して3文ほどを比較してみた。


なかなかの高精度だ


この中で意味合いが間違っているのは「ことと、」と「他も」の2カ所のみ。
「玉」と「球」はほぼ誤差の範囲内。「推し」と「押し」も微妙なところだ。
これはビリヤードの取材のため、「引き」「押し」という特別な使い方の単語が出てくるので致し方ない間違いだし、これは後で見てもすぐに判断できる。

このアプリは、使い込めば使い込むほど精度が上がるらしく、よく使う単語の登録も可能なので、本気で使うなら専門用語などをバンバン登録して、ガンガン音声データを変換していくと精度は飛躍的に良くなっていくのではないかと推測する。

今回は、ありもののデータをアップロードしてテキストに変換する方法と精度についてのファーストインプレッションをお届けした。

このアプリを使っての録音、メモ、ブックマークの使い方や、単語登録をしたらどのくらい精度が上がるのかなどについては、別記事に譲りたい。

※本アプリは頻繁にアップデートされているため、本記事の内容と公開時のアプリの仕様が異なる可能性があることをご了承いただきたい。




執筆 内藤由美