Google、スキャン文書も検索対象に
2008年10月31日17時10分 / 提供:MarkeZine
検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている 写真一覧(2件)
紙の文書をスキャンしてPDF形式で保存している文書は現在ネットで多数公開されているが、そのテキストは「テキストの画像」であって「テキストデータ」ではない。そのため、ウェブページ上のテキストのように、文書の内容を検索対象とすることはできなかった。
検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている
Official Google Blogの10月30日のエントリによると、Googleは、OCR(光学文字認識)を使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功。これによって、テキストデータ化されていない貴重な文書を見つけることが容易になった。
上の検索結果からHTMLバージョンを開いた状態。検索キーワードが一目でわかる
検索結果に表示されたPDF文書は、そのままPDF形式で開くこともできるし、GoogleがHTML変換したものを閲覧することもできる。しかし、OCRで読み取ったあとも、たとえば丸い形が「○」なのか「O(オー)」なのか「0(ゼロ)」なのかを判別し、整えるのにはかなりの手間がかかるはず。しかし、Googleのテキストデータ処理能力は、それを軽々とクリアしてしまったようだ。
【関連記事】
・「Google ブック検索」の新機能は、印刷物とウェブコンテンツの垣根を取り払おうとしている
・Googleドキュメント、PDFの表示、エクスポート、共有が可能に
・Googleは「検索以外」でも強かった、前々年比で「Googleマップ」利用者数は171%増、「Gmail」 は358%増
Ads by Google
コメントするにはログインが必要です
関連ニュース:PDF
- Googleの独自OS「Google Chrome OS」をスクリーンショットで徹底解説GIGAZINE 11月20日12時34分(13)
- 2万円を切る地上デジタル放送対応テレビが登場、エコポイントも7000点付与GIGAZINE 11月18日11時22分(9)
- アフガニスタン援助の実態:巨額はどこへ消えるのか
WIRED VISION 11月20日11時19分(1) - 莫大な石油を消費する「中東の米軍」
WIRED VISION 11月17日11時09分(1) - Kindle 2が我が家にやって来た
ITmedia エンタープライズ 11月23日10時10分
|
7,180円
コムロード オンラインストア
|
7,840円
Caravan YU
|
4,550円
e-Active
|
5,865円
コムロード オンラインストア
|
ITアクセスランキング
- 美少女ゲームで人気を博しているゲーム会社が火事で半焼! CIRCUS
ガジェット通信 23日07時10分(1) - もっと使いやすくなる!パソコンを快適に使いこなすテクニック集【知っ得!虎の巻】
ITライフハック 22日09時00分(1) - 今月発売された「PSP Go」が早くも大幅値下がり、好調な旧モデルとは対照的に販売台数も不調GIGAZINE 22日09時00分(9)
- 女が男にする酷い仕打ち「フォークダンスで指一本」アメーバニュース 22日14時02分(4)
- Windowsセキュリティに投資するのは古い!? Microsoftのセキュリティーツールで十分かも。ライフハッカー[日本版] 22日18時00分(7)
- もっとも利用されているSNSは、やっぱりmixi。ただし……Garbagenews.com 22日09時53分(4)
- 3連休が最後のチャンス!VistaやXPを高速化するテクニック集【知っ得!虎の巻】
ITライフハック 21日11時21分(6) - 「米国でも「Wiiの間」のようなサービスが行われるのではないか」−海外アナリストの予想インサイド 22日12時00分
- ASUSよ、お前もか!20型でタッチスタイルの一体型パソコンを発売へ
ITライフハック 22日16時00分(2) - まだまだ高いBlu-rayプレーヤー、将来的には7000円程度にまで値下がりする見込みGIGAZINE 21日23時09分(3)
注目の情報
なぜ、男に50万個も売れてる?今、この石けんが男性に、通販のみで50万個も売れている。なんでも
加齢臭を抑えるらしく、さらに売れ続けていると。そこで、実際に私も
試してみると…凄い!売れてる秘密がわかった。
その秘密とは≫


















行きの電車、帰りの電車で