無料で自動文字起こし&テキストで音声編集も可能な「audapolis」を使ってみた
オープンソースで開発される「audapolis」は書き起こし機能を備えたメディアエディターで、音声を自動的にテキストに書き起こすだけでなく、書き起こしたテキストを編集することで同時に音声も編集できるツールで、無料で使うことができます。
GitHub - bugbakery/audapolis: an editor for spoken-word audio with automatic transcription
audapolisはオープンソースで開発されるフリーアプリで、AGPL-3.0ライセンスの下で配布されています。GitHubのページにアクセスし、「Release」にある最新バージョンをクリック。記事作成時点での最新バージョンはv0.3.0です。
audapolisはmacOS・Linux・Windowsに対応しています。今回はWindows版を使用するため、「Windows」をクリックし、EXE形式のインストーラー(ファイルサイズ:181MB)をダウンロードしました。
ローカルに保存したインストーラーを起動。
すると、自動的にインストールが始まります。
インストールが完了すると、アプリウィンドウが起動。立ち上がり時はロードが少し発生します。
ロードが終わるとこんな感じ。インストールで複雑な設定や環境構築は必要ないので、技術的な知識を持っていない人でも簡単に使うことができます。初回使用時は説明するポップアップが表示されるので、「Next」をクリック。この後、機能にアクセスするたびに説明するポップアップが表示されますが、すべて「Next」をクリックすればOKです。
「Import & Transcribe」をクリックします。
すると、「まず文字起こし用のモデルをインストールする必要がある」とのことで、自分の言語に合わせて文字起こし用のモデルを選択します。「Japanese」をクリック。
日本語対応のモデルはサイズに応じて「small」と「big」の2種類が用意されています。「big」の方が精度は高くなりますが、その分ファイルサイズは大きくなります。今回はファイルサイズ1Gbの「big」にあるダウンロードアイコンをクリック。
モデルのダウンロードが終了したら、左上の「back to home screen」をクリックし、トップ画面に戻ります。
トップ画面に戻ったら、改めて「Import & Transcribe」をクリック。すると、メディアの読み込みが可能になります。なお、読み込めるファイル形式はMP3、WAV、OGG、WMA、AAC、MP4、MKV、MOV、WEBMで、音声だけではなく動画ファイルからの文字起こしも可能です。
音声ファイルを読み込んだら、「Transcribe」をクリックします。
すると、文字起こしが始まります。
以下のムービーで、夏目漱石の「坊っちゃん」冒頭部分を朗読した音声ファイルをaudapolisで文字起こしするところを確認できます。書き起こされたテキストは、話者ごとに自動で分類されます。今回は朗読なので話者は一人なのですが、抑揚や息継ぎのタイミングによって2人以上に分けられています。文字起こしの精度は高く、いくつかミスはあるものの、ある程度の音質のものであれば十分実用に足るレベルという印象。
無料で音声からの自動文字起こしが可能な「audapolis」で文字起こししてみた - YouTube
書き起こされたテキストで間違いがあった場合、間違っている部分を選択し、「o」キーを押すと編集可能。
また、書き起こされたテキストを選択して削除すると、再生される音声も同時に編集されます。テキストベースで音声編集も可能というのが、このaudapolisの大きな特徴です。どんな感じで編集できるのかについては、以下のムービーを見るとよくわかります。
日本語でも自動で文字起こしできる「audapolis」はテキストを編集すると同時に音声も自動で編集される - YouTube
編集したテキストや音声は、右上のアイコンをクリックし、「Start Export」をクリックすると書き出すことができます。
書き出せるフォーマットは音声、動画、字幕、テキスト、タイムラインです。
また、左上のハンバーガーアイコンをクリックし、「File」を選択してから「Save」(上書き保存)か「Save As」(名前をつけて保存)を選択することで、作業中のプロジェクトとして保存することができます。