ロシア最大の検索エンジンであり、世界でも第4位の検索エンジン「Yandex」からソースコードが流出しました。ハッカーによる攻撃ではなく、元従業員がGitリポジトリを盗み出したものだとのことで、個人情報は含まれていませんが、アルゴリズム内で用いられている1922の検索ランキング決定要因が明らかになっています。



Massive Yandex code leak reveals Russian search engine’s ranking factors | Ars Technica

https://arstechnica.com/information-technology/2023/01/massive-yandex-code-leak-reveals-russian-search-engines-ranking-factors/

SEOに詳しいアレックス・ブラークス氏は内容の分析を行い、英語でそれぞれの項目について説明を追加したファイルを公開しています。分析によると、1922ある要因の1番目に来ていたのはGoogleのアルゴリズムであるはずの「ページランク」でした。



このほか、Yandexで検索ランキング上位に来る要素は以下のようなものでした。

・ページが古すぎないこと

・多くのオーガニックトラフィックがあること

・URLに含まれる数字やスラッシュの数が少ないこと

・「ハード・ペシミゼーション」の値が0に近いこと(スパムや低品質なコンテンツ、検索ガイドライン違反、ブラックハットSEOなどによるペナルティを課されていないかを示す値だとのこと)

・信頼性の高いサーバーでホストされていること

・Wikipediaのページであること、あるいはWikipediaからリンクされていること

・あるドメインの上位ページからリンクされていること、またはホストされていること

・URLにキーワードが含まれていること(3つまで)

Yandexには元Googleの従業員が多数雇用されていて、ページランクや多くのテキストアルゴリズムなど、Googleと似た部分が多数あることが報告されています。あくまでGoogleとは別物ながら、検索結果は70%が類似しているとのことで、ブラークス氏は今回流出したYandexのソースコードを「SEO的にはとても参考になる情報」と述べています。

なお、Yandexのコードでは関数名や変数名、出力メッセージなどで人種差別的な用語が用いられていたこともわかっています。これらのうち、Nワードは「worker」を置き換えるために用いられている傾向があったそうです。

Yandex data breach reveals source code littered with racist language | IT PRO

https://www.itpro.co.uk/security/data-breaches/369966/yandex-data-breach-reveals-source-code-littered-with-racist-language