AIモデルの質を向上させるためには、高品質のデータセットが大量に必要です。AmazonはAI開発のために、2018年からMicrosoft傘下になっているソフトウェア開発プラットフォームのGitHubからコーディングのデータを収集していると報じられています。

Amazon Has A Secret Way To Scrape Microsoft's GitHub And Feed Its AI Model - Dataconomy

https://dataconomy.com/2024/06/14/amazon-has-a-secret-way-to-scrape-microsofts-github-and-feed-its-ai-model/



ニューヨークに拠点を置くビジネスや技術系ニュースサイトのBusiness Insiderが入手したAmazonの社内メモによると、同社で汎用人工知能(AGI)の開発に取り組むグループは、AIのトレーニングのために「GitHubからの量的および質的メタデータ」が必要であると主張しているそうです。しかし、GitHubにはデータスクレイピング制限が備わっており、1アカウントあたり1時間ごとに5000リクエストしか処理することができません。GitHubには2023年末までに1億5000万以上のパブリックリポジトリがあるため、スクレイピング制限に従ってデータを収集していては蓄積に何年もかかってしまいます。



そこでAmazonは、従業員に複数のGitHubアカウントを作成させることで、数年かかるデータ収集作業を数週間に短縮していることが報じられています。データ関連テクノロジーのニュース等を発信するDataconomyによると、このようなAmazonの取り組みは法的な意味で窃盗に当たらないとはいえ、データのプライバシー、プラットフォームリソースの適切な使用に関する倫理的な懸念を引き起こす可能性があるとのこと。Business Insiderが入手した社内メモには、従業員が法律およびセキュリティガイドラインに準拠しながら複数アカウントでのデータ収集を行うことができるように、アカウントを作成および管理する方法について詳細な指示が記載されているそうです。

AmazonがGitHubのスクレイピングに取り組む理由として、Dataconomyは「Amazonが必要としているのは、無数のコードだけではありません。プロジェクトが時間の経過とともにどのように変化するか、誰が貢献するか、開発者がどのように協力するかなど、貴重な詳細がGitHubのデータには含まれます。このメタデータは、AIモデルがパターンを学習し、精度を向上させ、問題を解決するためのより優れた方法を開発するために不可欠です」と語っています。



Amazonは、複数アカウントでスクレイピングするアプローチは法務およびセキュリティチームによって承認されていると主張しています。一方で、GitHubや影響を受けるユーザー自身が違反と認識した場合、Amazonの行為が問題視される可能性があります。

また、ソーシャルニュースサイトのHackerNewsでもこの件が話題になっており、傘下のGitHubがライバル企業であるAmazonにデータを収集されることをMicrosoftが嫌がって規約を厳しくするかもしれないが、それ以上厳しい法的な追及はしないだろうと考える意見がある一方で、そもそもGitHubの利用規約には「制限を回避する目的でAPIキーを共有することはできず、個人または組織ごとに無料アカウントは1つだけです」とあるため、Amazonの行為は規約違反にあたるという指摘もあります。ただし、この規約は無料アカウントについての内容で、Amazonが実施している方法の詳細は記事作成時点では明らかになっていないため、問題点は不明です。一方で、「GitHubでコードを公開しているのは他のユーザーのためであり、大企業のためではありません」と個人のユーザー視点で怒りを向ける声も多数寄せられています。