ゲストさんログイン

ウェブ検索

最新ニュース! クリックするほどよく分かる

[PR]livedoorガイド自動車保険特集

Google、スキャン文書も検索対象に

2008年10月31日17時10分 / 提供:MarkeZine

MarkeZine
Google、スキャン文書も検索対象に
検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている 写真一覧(2件)
 Googleは、紙の文書をスキャンしてPDF化したものも、OCRを使って内容を読み取ることで検索可能になったと発表した。

 紙の文書をスキャンしてPDF形式で保存している文書は現在ネットで多数公開されているが、そのテキストは「テキストの画像」であって「テキストデータ」ではない。そのため、ウェブページ上のテキストのように、文書の内容を検索対象とすることはできなかった。

検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている

 Official Google Blogの10月30日のエントリによると、Googleは、OCR(光学文字認識)を使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功。これによって、テキストデータ化されていない貴重な文書を見つけることが容易になった。

上の検索結果からHTMLバージョンを開いた状態。検索キーワードが一目でわかる

 検索結果に表示されたPDF文書は、そのままPDF形式で開くこともできるし、GoogleがHTML変換したものを閲覧することもできる。しかし、OCRで読み取ったあとも、たとえば丸い形が「○」なのか「O(オー)」なのか「0(ゼロ)」なのかを判別し、整えるのにはかなりの手間がかかるはず。しかし、Googleのテキストデータ処理能力は、それを軽々とクリアしてしまったようだ。

【関連記事】
「Google ブック検索」の新機能は、印刷物とウェブコンテンツの垣根を取り払おうとしている
Googleドキュメント、PDFの表示、エクスポート、共有が可能に
Googleは「検索以外」でも強かった、前々年比で「Googleマップ」利用者数は171%増、「Gmail」 は358%増
関連ワード:
PDF  キーワード  Googleマップ  Gmail  コンテンツ  
Ads by Google
コメントするにはログインが必要です
ログインしてください
投稿

関連ニュース:PDF

ITアクセスランキング

注目の情報
エンゼルバンク ~転職代理人
発想を変えれば人生も変わる。
人生逆転のヒントあります!
毎週木曜よる9時 テレビ朝日系にて放送!


→詳しくはコチラ!

写真ニュース

パテントビューロ  JACと提携、先端専門職の転職支援サービス提供開始  秋葉原アイドル喫茶でネットラジオ公開生放送! そして本日ガジェット通信『ニコ生』も! Twitterでは「つぶやく」な
違う世界で生きる子供たち。発展途上国の児童労働の実態を写した写真10枚 [新製品]日立、エンタープライズサーバ「EP8000 シリーズ」にPOWER7プロセッサ搭載モデルを追加 スポーツ予想がエコになる「GOLIATH(ゴリアテ)」がオープン AKB48が初の“48人勢揃い”CM出演〜メイキングムービーも
5mmしか飛び出ないマイクロUSBメモリー 苺ホワイトチョコレート餃子を作ってみよう 板チョコそっくり!なワイヤレスマウス [新製品]キヤノン、薄型・軽量化を図った「PowerShot SX210 IS」ほか3機種

特集

広瀬香美

広瀬香美

冬の女王が冬のヒットドラマ主題歌を歌う

ヤマハ「YSP-4100」

ヤマハ「YSP-4100」

完成。次世代型フルスペック ホームシアターオーディオ

抱擁のかけら

抱擁のかけら

愛から逃げて、愛と出逢う――。ペネロペ・クルス主演最新作

ケータイでニュースを見る
QRコード 行きの電車、帰りの電車で
livedoorニュースを読もう!
ケータイにメールを送る
livedoor サービス: