無料で商用利用もOKな完全オープンソースの大規模言語モデルを開発するプロジェクト「RedPajama」がトレーニングデータセットを公開
OpenAIのGPT-4などの大規模言語モデルによって、AI技術が急速に普及しています。しかし、GPT-4をはじめとする大規模言語モデルの多くがクローズドな商用モデルか、あるいは部分的にしかオープンになっていません。「RedPajama」は完全にオープンソース化された大規模言語モデルを開発するプロジェクトで、その第1段階として1兆2000億以上のトークンを含むLLaMAトレーニングデータセットが公開されました。
https://www.together.xyz/blog/redpajama
GitHub - togethercomputer/RedPajama-Data: The RedPajama-Data repository contains code for preparing large datasets for training large language models.
https://github.com/togethercomputer/RedPajama-Data
RedPajamaは再現可能で完全にオープンな言語モデルを生み出すための取り組みで、AIスタートアップのTogether、Ontocord.ai、チューリッヒ工科大学のETH DS3Lab、スタンフォード大学のStanford CRFM、Hazy Research、MILA Québec AI Instituteによる共同研究プロジェクトとして進められています。
このRedpajamaのベースになっているのは、Metaが開発する「LLaMA」です。LLaMAは1兆2000億トークンのデータセットでトレーニングされた大規模言語モデルで、70億パラメータのモデルはGPT-4やChincillaよりもずっと軽量でありながら同等のパフォーマンスを発揮するのが特徴。
Metaが大規模言語モデル「LLaMA」を発表、GPT-3に匹敵する性能ながら単体のGPUでも動作可能 - GIGAZINE
ただし、LLaMAは部分的にオープンソースで開発されているものの、非営利の研究目的でのみ利用可能で、重みデータは一般公開されていません。そのため、RedPajamaは「商用アプリケーションにも利用可能な完全なオープンソース」で開発することを目標としています。
RedPajamaは「高品質で幅広い範囲をカバーする事前学習データの開発」「その事前学習データで大規模に学習したベースモデルの開発」「そのベースモデルを改良して使いやすく安全性を高めたチューニングデータとモデルの開発」という3段階を想定しているそうで、今回公開されたのは第1段階である事前学習データ「RedPajama-Data-1T」で、AI向けリポジトリサイトのHugging Faceで公開されています。
togethercomputer/RedPajama-Data-1T · Datasets at Hugging Face
https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T
RedPajama-Data-1Tは、データセットの収集元に応じて「CommonCrawl」「C4」「GitHub」「arXiv」「Books」「Wikipedia」「StackExchange」という7つのデータスライスで構成されており、それぞれ慎重な前処理とフィルタリングが行われているとのこと。RedPajama-Data-1TはLLaMAで使われたデータセットを再現したものであり、各データスライスのトークン数もかなり近いものになっているとのこと。
RedPajamaの次の目標は、このRedPajama-Data-1Tを使って強力な大規模言語モデルをトレーニングすることだと述べています。すでに記事作成時点で、Oak Ridge Leadership Computing Facility(OLCF)の支援を受けてトレーニングを行っているところで、2023年5月中には最初のモデルが利用可能になると述べています。