政治や宗教からインターネット、科学、データサイエンスまで幅広い問題を研究しているピュー研究所の調査により、2013年から2023年にかけてネット上に存在していたコンテンツのうち4分の1はすでに消滅してアクセスできなくなっていることがわかりました。

Link Rot and Digital Decay on Government, News and Other Webpages | Pew Research Center

https://www.pewresearch.org/data-labs/2024/05/17/when-online-content-disappears/



ピュー研究所はまず、非営利団体「Common Crawl」が収集したクローリングデータをもとに、2013年から2023年に存在したコンテンツからランダムで99万9899件のURLを抽出し、コンテンツが残っているかどうかを調査しました。

その結果、全体でコンテンツの4分の1がアクセスできない状態になっていることがわかりました。

アクセスできなくなったコンテンツを年別に示したものが以下のグラフで、調査範囲で最も古い2013年のコンテンツは38%がアクセスできず、わずか1年前の2023年のコンテンツでも8%がすでにアクセスできない状態になっていたとのこと。



ニュースサイトの場合、ページの23%に少なくとも1つのリンク切れがあり、政府系のウェブサイトでもページの21%に少なくとも1つのリンク切れを含んでいたとのこと。なお、ニュースサイトでリンク切れがあるかどうかと規模の大小に関連はなかったのですが、政府系ウェブサイトの場合、地方の方がリンク切れが多かったそうです。

また、Wikipedia英語版で5万件の記事を対象に調査を行ったところ、82%の記事に「参考文献」などとしてウェブサイトへのリンクが記載されていましたが、53%の記事に少なくとも1つのリンク切れが含まれていたとのこと。

さらにピュー研究所は、X(旧Twitter)で2023年春から3カ月にわたって、リアルタイムで投稿を収集して3カ月の追跡調査を実施。

すると、投稿の18%は数カ月後には消えていたとのこと。消えた投稿のうち60%は、投稿したアカウントが非公開になったか凍結されたか削除されたもので、残る40%は投稿のみ削除されたものでした。

傾向として、トルコ語やアラビア語の投稿は消されやすく、投稿の40%以上が3カ月以内に消えたそうです。

また、プロフィール設定が初期状態のままになっているアカウントからの投稿は、アクセスできなくなる可能性が高いこともわかりました。

ただし、消えた投稿の6%は後日、アカウントの復活や非公開から公開への変更などにより、再びアクセス可能になったとのこと。再表示された投稿は、90%が調査期間終了まで残り続けたそうです。