Google、スキャン文書も検索対象に
2008年10月31日17時10分 / 提供:MarkeZine
検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている 写真一覧(2件)
紙の文書をスキャンしてPDF形式で保存している文書は現在ネットで多数公開されているが、そのテキストは「テキストの画像」であって「テキストデータ」ではない。そのため、ウェブページ上のテキストのように、文書の内容を検索対象とすることはできなかった。
検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている
Official Google Blogの10月30日のエントリによると、Googleは、OCR(光学文字認識)を使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功。これによって、テキストデータ化されていない貴重な文書を見つけることが容易になった。
上の検索結果からHTMLバージョンを開いた状態。検索キーワードが一目でわかる
検索結果に表示されたPDF文書は、そのままPDF形式で開くこともできるし、GoogleがHTML変換したものを閲覧することもできる。しかし、OCRで読み取ったあとも、たとえば丸い形が「○」なのか「O(オー)」なのか「0(ゼロ)」なのかを判別し、整えるのにはかなりの手間がかかるはず。しかし、Googleのテキストデータ処理能力は、それを軽々とクリアしてしまったようだ。
【関連記事】
・「Google ブック検索」の新機能は、印刷物とウェブコンテンツの垣根を取り払おうとしている
・Googleドキュメント、PDFの表示、エクスポート、共有が可能に
・Googleは「検索以外」でも強かった、前々年比で「Googleマップ」利用者数は171%増、「Gmail」 は358%増
Ads by Google
コメントするにはログインが必要です
関連ニュース:PDF
- 「JANJANニュース」はもはや市民メディアではない
PJ 10月29日07時45分(3) - 「モンスターハンターフロンティアオンライン」大型アップデート――シーズン7.0 “絶島主、ラヴィエンテ”
ITmedia Gamez 11月06日19時17分 - 2カ国語対応(日本語/英語)活字OCRソフトウェア「e.Typist NEO v.12.0」リリースのご案内
ドリームニュース 11月06日18時00分 - スターティアラボ、廉価版の電子ブック作成ソフトを提供シゴトの計画 11月06日17時03分
- あさかわシステムズ、給与明細メール配信システムの新版を発売シゴトの計画 11月06日17時03分
|
8,980円
Caravan YU
|
7,420円
Caravan YU
|
11,020円
Caravan YU
|
5,865円
コムロード オンラインストア
|
ITアクセスランキング
- 現役高校生が『mixi』で無免許運転を告白
ロケットニュース24 07日16時30分(19) - 【コラム】 ネット接続だけじゃない! いろんな機器が無線LANでつながっているR25.jp 05日11時00分(9)
- トイレでワンセグ!? 女子たちの携帯電話事情escala cafe 20日12時00分(6)
- 偽ソフトの感染が顕著に、国内でも拡大に懸念
ITmedia エンタープライズ 04日13時53分
注目の情報
アフラックの代理店制度のご案内開業資金や経験はいりません!自宅を拠点に独立してみませんか。
開業前の研修充実。仕事はアフラックが全面的にバックアップします。
全国で1万8000人以上の方がイキイキと活躍しています。
代理店募集サイトが新オープン











行きの電車、帰りの電車で