ブラウザFirefoxのアドオン「Copyfish」は、OCR(光学文字認識)機能を追加して、ムービーの字幕やサイトロゴ、文字画像などを文字コード形式に変換することができます。テキスト変換すると同時に翻訳することも可能ということなので、さっそく使ってみました。

Copyfish :: Add-ons for Firefox

https://addons.mozilla.org/en-us/firefox/addon/copyfish-ocr-software/



◆アドオンインストール

Firefoxで上記URLにアクセスして、「Add to Firefox」をクリック。



「インストール」をクリック。



「Welcome!」と表示されたページが開けば、Copyfishアドオンのインストールは完了です。



◆使ってみた

・ムービー字幕

まずはムービー内の字幕をコピーしてみます。検索ボックス横のアドオンバーに追加された「Copyfish」ボタンをクリック。



マウスカーソルでコピーしたい字幕部分を指定したら、一度クリック。



コピーが始まるのでしばらく待つと……



ムービー内の字幕をテキストに変換できました。



別の字幕を同じ要領でコピーすると……



「very」という文字をうまく認識できませんでした。こんな場合は、「Redo OCR」をクリックして文字変換をやり直したり、「Recapture」をクリックして文字を指定し直せばOK。



指定範囲を変更すると、うまく認識させられました。



続いて、日本語の字幕に挑戦してみます。



デフォルトでは認識できる文字が「English(英語)」に指定されているため、うまく文字を認識できません。そこで、「歯車」アイコンをクリック。



「Copyfish Options」のページが開くので、「Input Language (OCR Language) 」の「English」をクリック。



「Japanese(日本語)」を指定すればOK。



今度は日本語として文字を認識できましたが、「誰」という文字が「羅」と誤認識されました。特徴的なフォントの場合、うまく文字を認識できないことがあるようです。



別のフォントの文字を試すと……



正しく認識できました。



・文字画像

Copyfishは字幕だけでなく画像形式の文字もテキストに変換可能です。東京大学のホームページの「東京大学」ロゴを指定すると……



問題なくテキストにでき、翻訳も完璧。



GIGAZINEのロゴで試すと……



うまく認識できませんでした。袋文字などの場合は、ただしく認識させるのが難しいようです。



・保護されたPDF

文字をテキストとして認識・抽出できない「保護されたPDF」の文字を、テキストにすることも可能。PDFファイルの説明書を開くプログラムに「Firefox」を指定して、PDFファイルをFirefoxブラウザで表示させます。



あとはこれまでと同様に、アドオンバーのCopyfishボタンをクリックして、テキストに変換したい部分を指定してみると……



問題なく、OCR機能が使えました。