あらゆる画像中の文字を選択・コピー・消去・置換・翻訳するChrome拡張 Project Naptha

2014年4月24日 11時19分

MITの学生 Kevin Kwok 氏が、ウェブ画像中の文字を通常のテキストのように選択・コピーできるChrome拡張機能 Project Naptha を公開しました。

ただのテキストのように見えて選択できない埋め込み画像はもちろん、スキャンした文書やウェブ漫画、イラスト中の文、スクリーンショット中のテキスト、あるいは写真に写った看板などの文字までコピーでき、さらには文字を消したり置き換えたり、翻訳サービスに投げて訳すことさえできます。

Kwok氏によると、Project Naptha は新入生として初参加したハッカソンイベント HackMIT 2013 で二位に入賞した " Images as Text " を元に改良したコード。技術的な解説によれば、画像中に文字があるかどうかは、Microsoft Research が開発した Stroke Width Transform アルゴリズムなどいくつかの手法を組み合わせて判断します。文字認識にはオープンソースOCRエンジン Ocrad のJavaScript 版でローカル処理するか、より高度なクラウドベースのOCRに投げるかどうかを選択可能です。

またOCRと翻訳については、ユーザーがテキスト選択を始めたタイミングで、Project Napthaのキャッシュサーバに問い合わせて同一の内容がないかどうか確認します。これは「ユーザー識別情報を持たないHTTPSリクエスト」のみを送るとされていますが、オプションから一括で無効にしてローカル動作のみにしたり(Disable lookup)、あるいは特定のドメインやページについてルックアップしないように設定もできます。

面白いのは、選択やコピーができるだけでなく、画像中の文字をある程度自然に消去したり、自分で入力した文字や翻訳サービスの翻訳結果と置き換えられること。

これはOCRに渡すために認識した文字の輪郭をマスクとして使い、消した部分は周辺の色で埋めてごまかすことで処理しています。Photoshop などの画像処理ソフトで使われる Content-Aware Fill のような仕組み。このほか採用したさまざまな手法については、リンク先の作者サイトで詳しい解説があります。

ロシア語から日本語に直接翻訳した例。翻訳エンジン側の精度の問題で「4月10日から27日」が解釈できなかったりしますが、ロシア語から機械翻訳の相性が良い英語などに翻訳したり、コピーしてから別の翻訳エンジンに渡すことはできます。「15%」が「15°/O」(15度スラッシュオー)になっているのはOCRの精度。

ベータ機能のテキスト編集(置き換え)例。ロシア語 IKEAカタログ内の値札を勝手に1000円に書き換え。

日本語OCRも選択できますが、画像によって向き不向きがあり、まともに動くところとまるで使えない場合があります。

Project Naptha はChromeブラウザの拡張機能としてChromeウェブストアから無料でダウンロードできます。ソフトの性質上、Project NapthaのOCR / 翻訳キャッシュサーバと通信したり、ブラウザ内で読んだテキストをクラウドベースのOCRや翻訳サービスに渡すオプションなどの関係でパーミッションを与える必要がありますが、ちょっとだけ試したい場合は Project Napthaのサイト全体がライブデモになっており、インストールせずに実際に試せます。

みんなの感想は？

あらゆる画像中の文字を選択・コピー・消去・置換・翻訳するChrome拡張 Project Naptha

外部サイト

ランキング