こんにちは、『未来検索ブラジル』という会社で『senna』というものを開発している者です。先日、会社のメンバーでカラオケに行きました。僕はカラオケがあまり得意ではないのですが、人が歌っているのを聴くのは結構好きなのでした。

そのカラオケで、『金太の大冒険』という曲を歌っている人がいました。つボイノリオ氏によるエッチなコミックソングの傑作ですね。しかし、職場の同僚とのカラオケで『金太の大冒険』を歌うとは、まったくチャレンジャーな奴です。真似できません。

さて、この『金太の大冒険』は、いわゆる「ぎなた読み」が用いられた曲です。「弁慶が、なぎなたを持って」をいう一節を、「弁慶がな、ぎなたを持って」を読み間違えたことからこう呼ばれるそうです。有名な例として、「ここではきものをぬいでください」などがあります。

<ふたつの意味にとれます>
「ここでは着物をぬいでください」
「ここで履物をぬいでください」

「京都旅行に行きたいな〜」と思って、検索サイトで「京都の宿」と検索したとします。そのとき、「東京都の宿」が検索結果のトップに出てきたらどう思いますか?「使えない検索サイトだな……」と思いますよね。通常、検索サイトで「京都の宿」と検索したら、「東京都の宿」が上位に表示されることはありません。でも、「東京都の宿」の中に、確かに「京都の宿」という文字の並びが含まれているんですよね。では、検索サイトはどのような処理を行って判断をしているのでしょうか。

実は、このような検索サイトのプログラムは“どこに単語の区切りがあるのか”を判断しているのです。その言葉の区切り方としておかしい場合は、その結果を表示させなかったり、ランキングの順位を下げて実質ユーザーの目に触れないようにしています。たとえば、「この先生きのこる」という言葉があるとして、「この先、生きのこる」と判断するのが正しく、「この先生、きのこる」は不自然なわけです。言葉をどこで区切るのが適切か判断して、検索結果として出しているわけです。

各検索サイトがどのように単語を区切っているのかを簡単に調べる方法があります。検索結果の下にある「キャッシュ」のリンクをたどってください。ページの上にほうに、検索した単語が切り分けられて表示されます。たとえば、「京都の宿」で検索した結果のキャッシュでは、「京都 の 宿」といったように、単語の区切りにスペースが入ったかたちで表示がされると思います。

さて、ここで検索サイトにいじわるをしてみましょう。『金太の大冒険』の歌詞の一部をすべてひらがなにしたら、検索サイトはどのように単語を区切るのでしょうか? 試しにやってみると……どうやら、『Yahoo! JAPAN』より『Google』のほうが「いやらしい」解釈をしているようです。僕はまったくいやらしくないので、『Google』よりも『Yahoo! JAPAN』のほうが好みです。
[詳細記事]


協力:ブラジル秘密基地
参照:金太の大冒険 - wikipedia
参照:Senna - wikipedia

■オススメ! 最新人気トレビアンニュース
任天堂製品にまたも不具合!? Wiiのフリーズバグを検証してみた。
生物学的に恋愛は4年が限界?衝撃の「恋」と「愛」!
satoru.netから送られてきたプレス原稿が日本語めちゃくちゃ。

■関連リンク
やってみたいWiiのゲームリスト