スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 研究および商業目的での利用が可能
今回、深層学習フレームワークを「富岳」に移植してTransformerの性能を「富岳」上で最適化するとともに、並列分散学習手法を開発し適用することで、「富岳」を用いて大規模言語モデルの学習を行う際の演算速度を6倍(COOL Chips 27発表「Implementation of Batch Matrix Multiplication for Large Language Model Training on A64FX CPUs」と比較)に高速化した。さらに、「富岳」向けにTofuインターコネクトD上での集団通信の最適化を行うことにより、通信速度を3倍高速化(第193回HPC研究発表会発表「富岳上の大規模機械学習におけるAll-reduce通信の高速化」と比較)することに成功した。これにより「富岳」のCPUを用いて、現実的な時間内で大規模言語モデルを学習することが可能になった。
Fugaku-LLMは国内で多く開発されている70億パラメータより一般に高性能、かつ現在の計算機環境下で扱いやすい130億パラメータのモデルとなっている。今回の学習では、サイバーエージェントが収集した独自の日本語学習データと英語のデータなどを用いているため、透明性と安全性を確保しつつ日本語性能にも優れている。国産かつ独自のデータで学習を行っているオープンなモデルの中では日本語ベンチマークJapanese MT-Benchで最高性能を達成し、特に人文社会系のタスクでは高いベンチマーク性能を発揮する。
Fugaku-LLMは、GitHubやHugging Faceを通じ公開しており、ライセンスに従う限りにおいては、研究および商業目的での利用が可能。
今後、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、さらに効率的な学習方法が創出され、科学シミュレーションと生成AIの連携や、数千のAIによるバーチャルコミュニティの社会シミュレーションなど、次世代の革新的な研究やビジネスでの応用につながることが期待される。
●背景
近年、米国を中心に大規模言語モデル(LLM)の開発が活発に行われ、研究開発、経済社会、安全保障などあらゆる場面において大きな変革が起きている。
米国以外の国々においても、自国でLLMを開発するために莫大な人的資源や計算資源を投入しており、日本においても、AI研究のための計算資源として、日本のスーパーコンピュータのフラッグシップシステムである「富岳」に寄せられる期待は大きく、「富岳」における大規模な分散並列計算を実施するための環境整備が求められていた。
そこで、東京工業大学、東北大学、富士通、理化学研究所は、2023年5月より大規模言語モデルの共同研究開発を開始し、2023年8月からは、名古屋大学、サイバーエージェント、Kotoba Technologiesが参加した。
●研究成果
●1:「富岳」における大規模言語モデル学習の計算性能を大幅に向上
本研究では、「富岳」を用いることで、大規模言語モデルを学習する際の演算速度を既存技術の6倍、通信速度を3倍に高速化することに成功した。演算高速化についてはTransformerの性能を「富岳」上で最適化するため、深層学習フレームワークMegatron-DeepSpeedを「富岳」へ移植、密行列積ライブラリのTransformer向け高速化を行った。通信高速化については3種類の並列化を組み合わせた「富岳」向け通信性能最適化とTofuインターコネクトD上での集団通信の高速化を行った。
