Googleの検索ランキングアルゴリズムに関する2500ページ超の内部文書「Google API Content Warehouse」がリークされました。この内部文書についてコメントを拒否していたGoogleですが、ついにこれが本物であることを認めました。

Google confirms the leaked Search documents are real - The Verge

https://www.theverge.com/2024/5/29/24167407/google-search-algorithm-documents-leak-confirmation



世界最大級の検索エンジンであるGoogle検索を運用するGoogleの、検索アルゴリズムに関する2500ページ超の内部文書「Google API Content Warehouse」がリークされました。この内部文書により、Googleがユーザーの情報やChromeのデータをどのように利用しているかの実態が明らかになっていたのですが、Googleはこの内部文書についてコメントを拒否していました。なお、Google API Content Warehouseがリークされることとなった経緯や、内部文書のリークにより明らかになった新情報などについては、以下の記事にまとめてあります。

Googleの検索アルゴリズムに関する内部文書が流出、Chromeのデータをページランク付けに利用するなどGoogleのウソが明らかに - GIGAZINE



Google API Content Warehouseによると、Googleはクリック数やChromeのユーザーデータ、Google検索でのウェブページのランキングには寄与しないと同社が言及したデータなどを、収集・使用している可能性が示唆されています。元々Google API Content Warehouseは、Googleの従業員が情報リポジトリとして利用していたものと推測されていますが、具体的にどのデータが検索ランキングアルゴリズムに利用されているかについては、明確になっていません。

Google API Content Warehouseについて、テクノロジーメディアのThe Vergeは記載されている情報が古くなっている可能性や、トレーニング目的でのみ使用されている可能性、収集されているものの検索関連では利用されていない可能性などを挙げながら、「ウェブを形成する最も重要なシステムのひとつであるGoogle検索の内部を、前例のないレベルで垣間見ることができる資料。ただし、依然として不明瞭な部分も多い」と表現しています。



Google API Content WarehouseについてThe VergeがGoogleにコメントを求めたところ、同社の広報担当者であるデイビス・トンプソン氏から「文脈から外れた、古い、または不完全な情報に基づいて検索について不正確な憶測をしないように注意を促します」「検索の仕組みやシステムが重視する要素の種類について、我々は広範囲にわたる情報を共有しており、同時に検索結果の完全性を操作から守るためにも取り組んできました」という回答が返ってきたそうです。

Googleのトンプソン氏はリークされた内部文書が本物であることを認めたものの、「文脈から外れた、古い、または不完全な情報」と表現しています。しかし、Google API Content Warehouseを公開したウェブサイト解析ツールを開発・提供しているSparkToroのランド・フィッシュキン氏と、SEO対策を行うiPullRankの創業者であるマイク・キング氏は、一部に古い情報が含まれるものの、ほとんどは2024年3月時点の最新情報であると確認しました。

なお、Google API Content WarehouseはSEO分野やマーケティング、パブリッシング業界全体に波紋を呼ぶ可能性が高いとThe Vergeは指摘。Googleはこれまで検索ランキングアルゴリズムの詳細を明かしていなかったものの、ビジネスでインターネットを利用する小規模の独立系メディアからオンラインストアに至るまで、あらゆるユーザーにとって有益な「インターネットを支配するGoogleが何を考えているのか」に関する洞察を得るのにGoogle API Content Warehouseが役立つと、The Vergeは言及しました。