ゲストさんログイン

ウェブ検索

最新ニュース! クリックするほどよく分かる

[PR]もう見た?コレがグーグルのCM!

Google、スキャン文書も検索対象に

2008年10月31日17時10分 / 提供:MarkeZine

MarkeZine
Google、スキャン文書も検索対象に
検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている 写真一覧(2件)
 Googleは、紙の文書をスキャンしてPDF化したものも、OCRを使って内容を読み取ることで検索可能になったと発表した。

 紙の文書をスキャンしてPDF形式で保存している文書は現在ネットで多数公開されているが、そのテキストは「テキストの画像」であって「テキストデータ」ではない。そのため、ウェブページ上のテキストのように、文書の内容を検索対象とすることはできなかった。

検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている

 Official Google Blogの10月30日のエントリによると、Googleは、OCR(光学文字認識)を使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功。これによって、テキストデータ化されていない貴重な文書を見つけることが容易になった。

上の検索結果からHTMLバージョンを開いた状態。検索キーワードが一目でわかる

 検索結果に表示されたPDF文書は、そのままPDF形式で開くこともできるし、GoogleがHTML変換したものを閲覧することもできる。しかし、OCRで読み取ったあとも、たとえば丸い形が「○」なのか「O(オー)」なのか「0(ゼロ)」なのかを判別し、整えるのにはかなりの手間がかかるはず。しかし、Googleのテキストデータ処理能力は、それを軽々とクリアしてしまったようだ。

【関連記事】
「Google ブック検索」の新機能は、印刷物とウェブコンテンツの垣根を取り払おうとしている
Googleドキュメント、PDFの表示、エクスポート、共有が可能に
Googleは「検索以外」でも強かった、前々年比で「Googleマップ」利用者数は171%増、「Gmail」 は358%増
関連ワード:
PDF  キーワード  Gmail  Googleマップ  コンテンツ  
Ads by Google
コメントするにはログインが必要です
ログインしてください
投稿

関連ニュース:PDF

関連商品

become
いきなりPDF COMPLETE 7
7,180円
コムロード オンラインストア
リッチテキストPDF5.2 スタンダード
7,840円
Caravan YU
まとめて瞬間PDF Platinum&Edit
4,550円
e-Active
JUST PDF エコ印刷パック
5,865円
コムロード オンラインストア

ITアクセスランキング

注目の情報
なぜ、男に50万個も売れてる?
今、この石けんが男性に、通販のみで50万個も売れている。なんでも
加齢臭を抑えるらしく、さらに売れ続けていると。そこで、実際に私も
試してみると…凄い!売れてる秘密がわかった。


その秘密とは≫

ヘッドライン

三菱東京UFJ銀行に聞く――Oracle 11g R2はどうなのか 三菱東京UFJ銀行に聞く―...
 日本オラクルは、9月にデータベース製品の最新版「Oracle Database 11g Release 2」(11g R2)を発表した。

写真ニュース

受験生を応援するカップめん ラッコも大絶賛!?iPhone/PDA用の防水・防塵ケースが登場 カップ麺食べて旭山動物園に寄付しよう 3人の人気写真家が「聖地」を語るトークイベントを開催
失われたガリレオの指と歯を100年ぶりに発見 ハーレクインコミックス、急成長のインド携帯市場で配信 あなたの髪が、さくらの香り漂うサラサラヘアに 「スプレータイプ」の水虫治療薬
【大人気動画】多くは語らないでおくが「とにかくスゴイ亀」の動画 【ミミズクの目】ジャズ界初の動画コンテストが YouTube で開催 『オレ的ゲーム速報@刃』と『はちま起稿』のブログ戦争! 読者たちの反応は? モデルチェンジしてゴルフ顔に

特集

ケータイでニュースを見る
QRコード 行きの電車、帰りの電車で
livedoorニュースを読もう!
ケータイにメールを送る
livedoor サービス: