動画の字幕をAIで自動文字起こしして作成し、そのまま編集したり翻訳したりすることも可能なオープンソースの字幕エディター「Subtitle Edit」が無料で公開されているので、実際に使ってみました。

Nikse - Subtitle Edit

https://www.nikse.dk/subtitleedit

GitHub - SubtitleEdit/subtitleedit: the subtitle editor :)

https://github.com/SubtitleEdit/subtitleedit

公式サイトにアクセスし、左カラムの「Subtitle Edit 4.0.13」をクリックします。



GitHubのリリースページが開きます。今回はEXE形式のインストーラーである「SubtitleEdit-4.0.13-Setup.exe」をクリックしてダウンロードしました。ファイルサイズは約10.7MBです。



ダウンロードしたSubtitleEdit-4.0.13-Setup.exeを起動します。



インストーラーが起動するので、「日本語」を選択して「OK」をクリック。



「同意する」を選択し、「次へ」をクリックします。



インストール先の指定で、「次へ」をクリック。なお、Subtitle Editのインストールにはストレージに最低27.1MBの空き容量が必要です。



「次へ」をクリック。



「次へ」をクリックします。



「インストール」をクリックするとインストールが始まります。



インストールが終わったら「次へ」をクリック。



「Subtitle Editを実行する」にチェックを入れて、「完了」をクリックします。



起動したSubtitle EditのUIはこんな感じ。



上部ツールバーの「Options」から、「Choose language」を選択。



「日本語」を選んで「OK」をクリック。



これでUIが日本語になりました。ただし、記事作成時点では完全に日本語化されているというわけではなく、ごく一部は英語のままなので、注意が必要です。



次に、動画のプレイヤーを設定するべく、「オプション」から「設定」を選択します。



左の項目から「ビデオプレーヤー」を選択します。Subtitle Editでは動画の再生にmpv・DirectShow・VLCメディアプレイヤー・Media Player Classic - Home Cinemaを選択可能。今回は「VLCメディアプレイヤー」を選択し、プレイヤーアプリケーションファイルのパスを指定し、「OK」をクリックしました。これで基本的な準備は完了。



動画に字幕をつけるには、まず動画を読み込む必要があります。上部ツールバーから「ビデオ」をクリックし、「ビデオファイルを開く」を選択すると、エクスプローラーが起動します。



エクスプローラーから読み込む動画ファイルを選択すれば、Subtitle Editに読み込まれます。以下のように、右上のプレビュー画面に動画が表示されればOK。



続いて、OpenAI製の自動文字起こしAI「Whisper」を使って字幕を作成するため、「ビデオ」から「Audio to text(Whisper)」を選択します。



初回時はFFmpegのインストールが必要ですが、Subtitle Edit側が自動でインストールの処理を実行してくれます。「Yes」をクリック。



インストールが終了、あるいはすでにインストールされていれば以下のポップアップが表示されるので、「OK」をクリックします。



続いて、Whisperの導入が自動で行われます。インストールされるのはOpenAIのWhisperを高速化した「Faster-Whisper」のフォークであるPurfview's Faster-Whisperです。「Yes」をクリック。



今回は読み込んだ動画は映画「犬王」の舞台挨拶によるトーク部分。動画内で話される言語は日本語なので、「Japanese」を選択します。続いて、モデルを選択するため「...」をクリック。



初回はWhisperのモデルをダウンロードする必要があります。今回は「large-v3-turbo(1.6GB)」を選択し、「ダウンロード」をクリック。



ダウンロードが終わったら「Generate」をクリックします。



Whisperによる動画音声の自動文字起こしがスタート。



文字起こしが終了すると、文字起こしで自動生成された字幕のテキスト一覧が上部左に、動画音声の波形がプレビューの下に表示されました。字幕は再生時間に合わせて自動的に配置されています。



特定の字幕をクリックすると、動画の再生位置が字幕の冒頭に自動で移動します。また、該当する部分の音声の波形が選択され、赤くなります。



字幕にミスがある場合は、中央左にあるテキスト欄で直接編集可能。



また、字幕のテキスト一覧で赤色で表示されている部分は、字幕の表示時間や字幕そのものが長すぎるケース。字幕がちゃんと表示されないケースがあるので、適宜調整する必要があります。



字幕の表示部分は、波形編集画面の左で「作成」のタブを選択すると、字幕表示の開始と終了時間を調整することができます。また、波形編集画面に表示されている範囲を直接ドラッグすることで変更することも可能です。



長すぎる字幕はテキスト一覧から右クリックし、「分割」をクリックすることで2つに分割することができます。



また、複数の字幕を選択し、右クリックメニューから「選択した行の結合」を選ぶことで、1つにまとめることができます。



結合してまとめるとこんな感じ。文字起こしするだけでなく、字幕の内容を編集したり、分割したり結合したりすることで、視聴者にとってより読みやすくわかりやすい字幕を容易に作成可能。一連の作業をSubtitle Edit上で一気にできてしまうのが大きな魅力です。



もちろん、フィラーのような削除してもかまわないような部分が文字起こしされている場合は、右クリックから「削除」を行えば該当する字幕を削除できます。



また、文字起こしした字幕を翻訳することもできます。今回は2005年にスティーブ・ジョブズがスタンフォード大学で行った演説の動画を英語字幕に自動文字起こししてみました。字幕を選択して、「翻訳」タブから「Google翻訳」をクリックします。



すると、ブラウザが起動し、Google翻訳で選択した字幕が自動翻訳されます。



さらに、字幕すべてを自動で翻訳してもらうことも可能。上部ツールバーから「自動翻訳」を選択し、「Auto-translate」をクリックします。



翻訳APIを選択し、翻訳元と翻訳先を指定したら、「翻訳」をクリックします。



すると、英語の字幕がすべて自動で翻訳されていきます。



適用するとこんな感じ。ただし、あくまで「自動文字起こしした字幕を自動翻訳しているだけ」で、自動文字起こしした字幕を文章として適した形に整えなければ、ぶつ切りの文章を無理やり翻訳していることになり、かなりたどたどしい日本語になります。



なお、編集した字幕は、複数のフォーマットで保存可能。対応フォーマットは膨大で、Adobe After Effectをはじめとする動画編集・作成ソフトやオーサリングソフト、ストリーミングの独自字幕形式、さらにはYouTubeやNetflixなどにも対応しています。



また、作成した字幕は「ファイル」から「名前を付けて保存」をクリックすると保存できました。