Google、スキャン文書も検索対象に
2008年10月31日17時10分 / 提供:MarkeZine
検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている 写真一覧(2件)
紙の文書をスキャンしてPDF形式で保存している文書は現在ネットで多数公開されているが、そのテキストは「テキストの画像」であって「テキストデータ」ではない。そのため、ウェブページ上のテキストのように、文書の内容を検索対象とすることはできなかった。
検索で見つかったPDF文書には、抽出されたテキストの一部が表示されている
Official Google Blogの10月30日のエントリによると、Googleは、OCR(光学文字認識)を使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功。これによって、テキストデータ化されていない貴重な文書を見つけることが容易になった。
上の検索結果からHTMLバージョンを開いた状態。検索キーワードが一目でわかる
検索結果に表示されたPDF文書は、そのままPDF形式で開くこともできるし、GoogleがHTML変換したものを閲覧することもできる。しかし、OCRで読み取ったあとも、たとえば丸い形が「○」なのか「O(オー)」なのか「0(ゼロ)」なのかを判別し、整えるのにはかなりの手間がかかるはず。しかし、Googleのテキストデータ処理能力は、それを軽々とクリアしてしまったようだ。
【関連記事】
・「Google ブック検索」の新機能は、印刷物とウェブコンテンツの垣根を取り払おうとしている
・Googleドキュメント、PDFの表示、エクスポート、共有が可能に
・Googleは「検索以外」でも強かった、前々年比で「Googleマップ」利用者数は171%増、「Gmail」 は358%増
Ads by Google
コメントするにはログインが必要です
関連ニュース:PDF
- SRA OSS、10万通のメールを1秒で検索可能なメールクライアント「Sylpheed Pro」を発表CNET Japan 10日20時21分
- 初の「参加型」情報通信白書公開 公募の表紙絵、コラムも
ITmedia 10日18時26分 - 「TVCMを1個以上覚えている人」71.4%に対し、「バナー広告」も51.2%とすでに5割超え 〜 CCI調べ
RBB TODAY 10日17時50分 - 無料でPDFファイルが作成できる高機能なフリーソフト「PDF reDirect」GIGAZINE 10日17時14分
- 基地局関連メーカ各社の動向 −2008年度通期−BizMarketing サーベイ 10日13時00分
|
2,680円
DOSPARA
|
9,850円
マイカウネット
|
5,250円
マイカウネット
|
93,240円
Apple Store
|
ITアクセスランキング
- 『DRAGON QUEST IX』の仲間キャラに自我がない件についてロケットニュース24 11日10時28分(4)
- ドラクエも三人乗りも解禁!煩悩も爆走! ガンバレおかあさん【4コマでわかる時事ニュース】
ITライフハック 11日09時00分 - 違法、合法どっちなの? 遂に逮捕者もでた「マジコン」【気になるトレンド用語】ITライフハック 16日09時00分(13)
- [レポート] 『ドラゴンクエストIX 星空の守り人』いよいよ発売! 堀井さんからの手渡しも電撃オンライン 11日08時46分(3)
- 温故知新!ファンを魅了するデジカメ「ライカ M8」【最新口コミ モノ・トレンド】
ITライフハック 10日10時00分(6) - ついに『ドラクエIX』の本物ゲームデータが流出! マジコン対策は導入部分でのフリーズ
ガジェット通信 10日01時23分(14) - 携帯電話の着信音を鳴らすのは著作権侵害で追加料金の支払いが必要であると著作権団体が主張GIGAZINE 10日15時50分(14)
- バーチャル恋愛、愛の大安売りに陥る男たち ――「ネット婚活サイト」活用法と落とし穴 ダイヤモンド・オンライン 10日11時07分(8)
- いよいよ明日発売の「ドラゴンクエストIX(ドラクエ9)」は史上最高の売り上げを達成かGIGAZINE 10日17時25分(1)
- ドラゴンクエスト9とマジコン対策ツカサネット新聞 20日20時27分(5)
注目の情報
部長号泣!俺の英語が通じたぞ!とうとう夢が叶ったんです。英語の会議で通訳なしで成功したんです!
英会話習得の秘訣ですか?テキスト眺めたらダメ!ツライものは続かな
い、やり方変えたんですよ。
やっと見つけた英会話法はコチラ













行きの電車、帰りの電車で