Googleが提供する「Google Scholar」は、インターネット上に存在する学術論文を簡単に見つけることができる論文検索エンジンです。しかし、Google Scholarで使われている検索アルゴリズムの影響で、Google Scholarでは英語以外の論文を検索することが難しくなっている可能性が指摘されています。

Future Internet | Free Full-Text | Language Bias in the Google Scholar Ranking Algorithm

https://www.mdpi.com/1999-5903/13/2/31

Google Scholar renders documents not in English invisible

https://techxplore.com/news/2021-02-google-scholar-documents-english-invisible.html

Google Scholarでは、Google検索エンジンと同様に検索アルゴリズムが使われています。ポンペウ・ファブラ大学の研究チームによれば、ウェブサイトがアクセス数の増加を目的として検索エンジン最適化(SEO)を行うように、Google Scholarで検索上位に出るようにSEOを意識した論文が登場しているとのこと。

Google ScholarへのSEOを論文に実装するためには、Google Scholarの関連性ランキングを評価するアルゴリズムを理解する必要があります。もちろんGoogleは不正行為を防ぐため、Google Scholarのアルゴリズムについて、その詳細を明らかにはしていません。

研究チームは、統計分析に基づいたリバースエンジニアリングでGoogle Scholarのアルゴリズムを研究するため、著者別・年別・キーワード別でそれぞれ45回ずつ検索を行い、それぞれについて1000件の検索結果を得ました。

その結果、Google Scholarで検索を行うと、英語以外の言語で書かれた論文の90%が検索順で900番目よりも下に表示され、ほとんど可視化されていないことがわかりました。

以下は、英語の論文(灰色の点)と非英語の論文(赤色の点)を、論文の引用ランキングを縦軸に、Google Scholarでの検索ランキングを横軸にしたグラフに分布したもの。非英語の論文は引用数に限らず検索ランキングが900位以下と、英語の論文と比較すると明らかに低いことがわかります。



研究チームは「Google Scholarは本来他言語の結果が得られる検索エンジンですが、英語で書かれていない論文は差別されているといえます。この偏りは英語を話さない世界中の研究者に不利益をもたらす可能性があり、非英語圏の研究者が多言語の結果を伴う検索を行う際に、自国語での文献がないと信じさせてしまうのです」と論じました。