スーパーコンピューター「富岳」を用いて学習した130億パラメータの大規模言語モデル「Fugaku-LLM」が2024年5月10日(金)に公開されました。Fugaku-LLMは既存の大規模言語モデルに頼らず独自の学習データを用いて学習しており、既存の日本語特化大規模言語モデルと比べて高い性能を発揮することがアピールされています。

スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待 | 東工大ニュース | 東京工業大学

https://www.titech.ac.jp/news/2024/069217

スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 : 富士通

https://pr.fujitsu.com/jp/news/2024/05/10.html

Fugaku-LLMは2023年5月から東京工業大学、東北大学、富士通、理化学研究所によって開発が進められていた大規模言語モデルで、2023年8月からは名古屋大学、サイバーエージェント、Kotoba Technologiesも研究に参加しました。

研究チームはTransformerモデル群の「Megatron-DeepSpeed」を富岳に移植し、富岳をTransformer向けに最適化することに成功。これにより、富岳を用いて大規模言語モデルを学習する際の演算速度が6倍に高速化しました。さらに、富岳の高次元接続技術「TofuインターコネクトD」を用いた通信の最適化によって通信速度は3倍に高速化しました。

一般的に、大規模言語モデルの学習にはCPUよりもGPUの方が適しているとされています。しかし、研究チームは演算速度と通信速度の向上により、富岳に搭載された富士通製国産CPUを用いて現実的な時間内に大規模言語モデルを学習することに成功しました。これは、世界的にGPUが入手困難となっている現状において「日本の半導体技術の活用や、経済安全保障の観点からも重要な成果」とされています。



すでに日本語特化の大規模言語モデルは数多く存在しますが、ほとんどのモデルは海外製のモデルに日本語学習データを追加学習させる手法で開発されています。これに対して、Fugaku-LLMはサイバーエージェントが収集した独自の学習データを用いて一から学習しているのが特徴です。学習データの60%は日本語コンテンツで、その他に英語、数学、コードが含まれており、総トークン数は約4000億に達します。

また、多くの日本語特化大規模言語モデルはパラメータ数が70億ですが、Fugaku-LLMのパラメータ数は130億で、他のモデルより規模が大きいのも特徴です。研究チームは130億というパラメータ数を採用した理由について「国外ではさらに大規模なモデルも開発されているが、大規模な言語モデルでは、使用する際にも大規模な計算資源が必要になるため、あまりにもパラメータ数が大きいものは使用しにくい。2024年現在の計算機環境と照らし合わせ、Fugaku-LLMでは高性能かつバランスの取れた130億パラメータとした」と説明しています。

Fugaku-LLMは大規模言語モデルの日本語性能を測定するベンチマークテスト「Japanese MT-Bench」で平均スコア5.5を記録。これは、「国産で独自のデータで学習を行っているオープンなモデルの中では最高性能」とされています。特に人文社会系のタスクでは9.18という高いスコアを記録しており、敬語などの日本語の特徴を踏まえた自然な対話が可能なことが期待されています。



Fugaku-LLMのモデルデータはHugging FaceとGitHubで公開されており、ライセンスで定められた条件下であれば研究および商業目的に利用可能です。また、富士通の先進技術試用環境「Fujitsu Research Portal」でも利用可能です。

Fugaku-LLM/Fugaku-LLM-13B · Hugging Face

https://huggingface.co/Fugaku-LLM/Fugaku-LLM-13B



GitHub - Fugaku-LLM/DeepSpeedFugaku

https://github.com/Fugaku-LLM/DeepSpeedFugaku