Googleの書籍検索サービス「Googleブックス」は、キーワードを入力すると、そのキーワードと一致する、または関連する書籍を検索結果として表示してくれるサービスです。そんなGoogleブックスに、AIが生成した低品質の書籍がインデックス化されていることが指摘されています。

Google Books Is Indexing AI-Generated Garbage

https://www.404media.co/google-books-is-indexing-ai-generated-garbage/



海外メディアの404 MediaがGoogleブックスに対し「As of my last knowledge update(前回の知識更新の時点で)」というキーワードを入力し検索すると、このフレーズを含む数十冊の書籍が示されました。

404 Mediaによると、検索結果に表示された一部の書籍はChatGPTや機械学習、AIおよびその他の関連テーマについて人間が執筆した書籍とのこと。しかし、検索結果の最初の数ページで示される書籍のほとんどはAIが生成した文章からなる書籍だそうです。

なお、実際にGoogleブックスに「As of my last knowledge update」と入力すると、約2万3800件もの書籍が表示されました。これらの書籍には「As of my last knowledge update」というフレーズが頻出しています。



2024年3月に出版された「Maximize Your Twitter Presence: 101 Strategies for Marketing Success」という書籍には、複数ページにわたってX(旧Twitter)で認証マークを得る方法について記されていますが、2022年のイーロン・マスク氏によるTwitter買収以降、認証マークを得ることは比較的簡単になっています。この書籍では「2021年9月の最終更新の時点で、Twitterは認証の基準とプロセスを評価および更新している最中だったため、手順と要件はその後変更されている可能性があります」との記載があり、2021年9月時点での情報を基に執筆されたことが示されています。

ライブラリージャーナル「infoDOKET」の編集者であるゲイリー・プライス氏は「Googleブックスのインデックスにどんな書籍を追加しているのかGoogleが知らないはずがありません。Googleはどんな書籍であれ、出版された書籍を全てインデックス化しているようです。GoogleにはAIが生成した書籍に対して何らかのラベル付けを行ってもらいたいです」と述べています。

また、Distributed AI Research Institute(DAIR)のリサーチディレクターであるアレックス・ハンナ氏は「AIが生成したコンテンツがGoogleブックスに取り込まれ、Googleがそのコンテンツを使って新しいAIモデルのトレーニングを行う、いわば『ウロボロス』のような構造になっています。Googleは『品質フィルター』を持っていると言うでしょうが、その詳細はどこにも明かされることはないでしょう」と指摘しています。



一方でGoogleは、AIが生成した書籍をGoogleブックスから除外するポリシーを策定するかについて明かしていません。Googleブックスの広報担当者は「ユーザーがGoogleブックスのコーパス内で有用で関連性の高い書籍を見つけられるよう、システムとポリシーの適応に継続的に取り組んでいます」と述べました。