Google、スキャン文書も検索対象に
2008年10月31日17時10分 / 提供:MarkeZine
検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている 写真一覧(2件)
紙の文書をスキャンしてPDF形式で保存している文書は現在ネットで多数公開されているが、そのテキストは「テキストの画像」であって「テキストデータ」ではない。そのため、ウェブページ上のテキストのように、文書の内容を検索対象とすることはできなかった。
検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている
Official Google Blogの10月30日のエントリによると、Googleは、OCR(光学文字認識)を使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功。これによって、テキストデータ化されていない貴重な文書を見つけることが容易になった。
上の検索結果からHTMLバージョンを開いた状態。検索キーワードが一目でわかる
検索結果に表示されたPDF文書は、そのままPDF形式で開くこともできるし、GoogleがHTML変換したものを閲覧することもできる。しかし、OCRで読み取ったあとも、たとえば丸い形が「○」なのか「O(オー)」なのか「0(ゼロ)」なのかを判別し、整えるのにはかなりの手間がかかるはず。しかし、Googleのテキストデータ処理能力は、それを軽々とクリアしてしまったようだ。
【関連記事】
・「Google ブック検索」の新機能は、印刷物とウェブコンテンツの垣根を取り払おうとしている
・Googleドキュメント、PDFの表示、エクスポート、共有が可能に
・Googleは「検索以外」でも強かった、前々年比で「Googleマップ」利用者数は171%増、「Gmail」 は358%増
Ads by Google
コメントするにはログインが必要です
関連ニュース:PDF
- タブレット機、1888年から未来まで:画像ギャラリー
WIRED VISION 02月05日12時24分(1) - 新種のマルウェア数、たった2年で10倍増。史上最大数160万へ 〜 G Data調べ
RBB TODAY 02月10日12時41分 - ネット時代で「読む量」が急増:研究結果
WIRED VISION 02月10日12時18分 - 80PLUS BRONZE認証取得、2つの+12V出力回路搭載!環境に優しいグリーンカラーの高効率500W電源 EA-500D-GREEN
ドリームニュース 02月10日11時00分 - アザラシは潜水中に落ち葉のように落ちながら眠り休息することを北海道大学が解明GIGAZINE 02月10日10時50分
ITアクセスランキング
- 携帯電話の充電、5分で可能に朝鮮日報 10日07時43分
- 『サザエさん』に絵柄がまったく違う美少女キャラ登場
ガジェット通信 09日11時39分(11) - スクエニ社長「業務中にTwitterやエロサイトを見ても気にしない」
ガジェット通信 10日06時23分(3) - 『新ブラックジャックによろしく』謎のスピリッツ掲載延期
ガジェット通信 09日09時08分(6) - ガンダムを無断上映!インターネットカフェ店長を逮捕ITライフハック 10日07時00分
- Google Buzzはサル真似、それとも革命?Tech Wave 10日12時02分
- 美麗に口コミでも話題沸騰!アクリルキーボード「ACRYLUX」
ITライフハック 10日09時00分 - mixiが登録制に 「友達いない俺も始められる」の声アメーバニュース 09日00時07分(15)
- 写真と見間違えるほど繊細で美しい27枚の鉛筆アート
デジタルマガジン 10日11時00分 - 有名『2ちゃんねる』まとめブログがヤフオクでマジコン販売!? コメント欄大荒れの巻
ガジェット通信 05日21時15分(6)
注目の情報



















![[新製品]キヤノン、薄型・軽量化を図った「PowerShot SX210 IS」ほか3機種](http://image.news.livedoor.com/newsimage/e/3/e3566_58_510eb9f4412b458ff747d289c1bcce5a-s.jpg)






行きの電車、帰りの電車で