【トレビアン】Googleの“もしかして”
こんにちは、『未来検索ブラジル』という会社で『senna』というものを開発している者です。僕は公道で自転車に乗ったことがほとんどありません。行動範囲を広げたくて、オフィスの近くの公園で自転車に乗る練習をしています。
先日、自転車の練習中に激しくズッコケてしまいました。「恥ずかしい……」と思いながら立ち上がろうとすると、ひとりの女性が近づいてきます。「もしかして恋の始まり!?」とドキドキしたら、単なるビラ配りの人でした。
そうそう、「もしかして」といえば、『Google』で検索をするときにタイプミスをした場合、「もしかして:」という言葉と一緒に正しい言葉を表示してくれます。『Yahoo! JAPAN』だと「〜ではありませんか?」という言葉になり、ちょっと丁寧な感じになっています。個人的には「もしかして:」のほうが、かわいげがあって好きです。ちょっと気になったので、『Google』で「もしかして:」が出る例をいくつかピックアップしてみました。
<もしかして○○の一例>
「シュミレーション」→「もしかして: シミュレーション」
「高値の華」→「もしかして: 高嶺の花」
「責任を追求」→「もしかして: 責任を追及」
「思考錯誤」→「もしかして: 試行錯誤」
「同音意義語」→「もしかして: 同音異義語」
この「もしかして:」は、どのような仕組みで表示されるのでしょうか?「この単語が入力されたら、この単語を出す」という対応表、いわゆる辞書を持っていると考えられます。その辞書は、どうやって作られたのでしょうか。人力で作ることもできますが、大変そうですよね。
あなたが間違った言葉で検索をしてしまった場合を考えてみましょう。間違った言葉で検索した場合、検索結果の件数も少なく、探したい内容のサイトが見つからないですよね。そのとき、あなたはどうしますか?「あれ、間違えちゃったかも?」と、入力ミスがないかチェックしたうえで、再度検索を行うのではないかと思います。
みんながこのような行動をとるとしましょう。連続した検索クエリをいっぱい集めた上で統計処理を行うことによって、打ち間違いの辞書が自動的に出来そうですね。でも、このような処理っていつもうまくいくのでしょうか。
たとえば、フルーツの「アボカド」は、よく「アボガド」と表記間違いをされることがあります。では、『Google』で「アボガド」を検索してみましょう。あれ?「もしかして:」が出ませんね。
「アボカド」の検索結果は約173万件。
「アボガド」の検索結果は約110万件。
間違った表記でも、とても多くのサイト件数が検索結果として表示されます。きっと、「アボガド」と入力したユーザーは、それが間違いだとは気づかずに探したい内容のサイトにたどり着くのでしょう。誰も「アボカド」で検索しなおすことがないので、機械処理では辞書を作成することができません。
もうひとつ例を。『Google』で「うる覚え」を検索してみましょう。これも「もしかして:」が出ませんね。
「うろ覚え」の検索結果は約180万件。
「うる覚え」の検索結果は約18万件。
10倍近くの件数差があるのに、なぜ「もしかして:」が出ないのでしょうか? あなたが「うろ覚え」を「うる覚え」とうろ覚えしていたとしましょう。そのとき「うる覚え」で検索するでしょうか? 多分しないと思います。「うる覚え」で検索をする人は、「うる覚え」が誤記であることを知って、そんな誤記をしている人を探したりする目的を持っているのではないでしょうか。「うろ覚え」で検索しなおすことがないので、これまた機械処理では辞書を作成することができません。
昔の『Google』では、「もしかして:」の中身にまったく関係のない内容が出る時期がありました。このような辞書を自動で生成するのは、なかなか難しい処理なのです。しかし、「もしかして:」というのをわざわざ表示して、それをクリックするのはまどろっこしいですよね。明らかな間違いだったら勝手に訂正してもらいたいものです。実は、『Google』では誤記を勝手に訂正してくれたりもしているのです。
Googleで「確立が高い」を検索してみましょう。でもそれは「確率が高い」の誤記ですよね。その検索結果を見てみると、「確率が高い」という文字が太字になっていることが確認できると思います。あまりに間違いが多いため、検索エンジンの内部処理で同じ文字列として扱っているものと予想できます。
いやー、『Google』はマメですね。こんなにマメにされちゃうなんて、もしかして……。
[詳細記事]
引用元:ブラジル秘密基地
参照1:未来検索ブラジル
参照2:senna
■オススメ! 最新人気トレビアンニュース
・結婚するための同棲方法
・ひろゆき大遅刻! フラッシュ動画の祭典 『slashup04 fb Re:birth』!
・またNHKか! ニコニコ動画『ねこ鍋』がNHKで放送!
■関連リンク
・トレビアン恋愛
・livedoor ニュースの同記事はこちら
先日、自転車の練習中に激しくズッコケてしまいました。「恥ずかしい……」と思いながら立ち上がろうとすると、ひとりの女性が近づいてきます。「もしかして恋の始まり!?」とドキドキしたら、単なるビラ配りの人でした。
<もしかして○○の一例>
「シュミレーション」→「もしかして: シミュレーション」
「高値の華」→「もしかして: 高嶺の花」
「責任を追求」→「もしかして: 責任を追及」
「思考錯誤」→「もしかして: 試行錯誤」
「同音意義語」→「もしかして: 同音異義語」
この「もしかして:」は、どのような仕組みで表示されるのでしょうか?「この単語が入力されたら、この単語を出す」という対応表、いわゆる辞書を持っていると考えられます。その辞書は、どうやって作られたのでしょうか。人力で作ることもできますが、大変そうですよね。
あなたが間違った言葉で検索をしてしまった場合を考えてみましょう。間違った言葉で検索した場合、検索結果の件数も少なく、探したい内容のサイトが見つからないですよね。そのとき、あなたはどうしますか?「あれ、間違えちゃったかも?」と、入力ミスがないかチェックしたうえで、再度検索を行うのではないかと思います。
みんながこのような行動をとるとしましょう。連続した検索クエリをいっぱい集めた上で統計処理を行うことによって、打ち間違いの辞書が自動的に出来そうですね。でも、このような処理っていつもうまくいくのでしょうか。
たとえば、フルーツの「アボカド」は、よく「アボガド」と表記間違いをされることがあります。では、『Google』で「アボガド」を検索してみましょう。あれ?「もしかして:」が出ませんね。
「アボカド」の検索結果は約173万件。
「アボガド」の検索結果は約110万件。
間違った表記でも、とても多くのサイト件数が検索結果として表示されます。きっと、「アボガド」と入力したユーザーは、それが間違いだとは気づかずに探したい内容のサイトにたどり着くのでしょう。誰も「アボカド」で検索しなおすことがないので、機械処理では辞書を作成することができません。
もうひとつ例を。『Google』で「うる覚え」を検索してみましょう。これも「もしかして:」が出ませんね。
「うろ覚え」の検索結果は約180万件。
「うる覚え」の検索結果は約18万件。
10倍近くの件数差があるのに、なぜ「もしかして:」が出ないのでしょうか? あなたが「うろ覚え」を「うる覚え」とうろ覚えしていたとしましょう。そのとき「うる覚え」で検索するでしょうか? 多分しないと思います。「うる覚え」で検索をする人は、「うる覚え」が誤記であることを知って、そんな誤記をしている人を探したりする目的を持っているのではないでしょうか。「うろ覚え」で検索しなおすことがないので、これまた機械処理では辞書を作成することができません。
昔の『Google』では、「もしかして:」の中身にまったく関係のない内容が出る時期がありました。このような辞書を自動で生成するのは、なかなか難しい処理なのです。しかし、「もしかして:」というのをわざわざ表示して、それをクリックするのはまどろっこしいですよね。明らかな間違いだったら勝手に訂正してもらいたいものです。実は、『Google』では誤記を勝手に訂正してくれたりもしているのです。
Googleで「確立が高い」を検索してみましょう。でもそれは「確率が高い」の誤記ですよね。その検索結果を見てみると、「確率が高い」という文字が太字になっていることが確認できると思います。あまりに間違いが多いため、検索エンジンの内部処理で同じ文字列として扱っているものと予想できます。
いやー、『Google』はマメですね。こんなにマメにされちゃうなんて、もしかして……。
[詳細記事]
引用元:ブラジル秘密基地
参照1:未来検索ブラジル
参照2:senna
■オススメ! 最新人気トレビアンニュース
・結婚するための同棲方法
・ひろゆき大遅刻! フラッシュ動画の祭典 『slashup04 fb Re:birth』!
・またNHKか! ニコニコ動画『ねこ鍋』がNHKで放送!
■関連リンク
・トレビアン恋愛
・livedoor ニュースの同記事はこちら