複雑になりがちな機械学習のパフォーマンスを標準化するべく設計されたベンチマーク「MLPerf Training」のバージョン4.0が登場し、複数のハードウェアで実行されました。その結果、NVIDIAの高性能GPU「H100」を搭載したシステムが優れたスコアを示しました。

MLPerf Training Benchmark - 1910.01500v3.pdf

(PDFファイル)https://arxiv.org/pdf/1910.01500

MLPerf Training Results Showcase Unprecedented Performance, Elasticity | NVIDIA Blog

https://blogs.nvidia.com/blog/mlperf-training-benchmarks/

Nvidia Conquers Latest AI Tests​ - IEEE Spectrum

https://spectrum.ieee.org/mlperf-nvidia-conquers

ベンチマーク結果は以下から確認できます。

Benchmark MLPerf Training | MLCommons Version 2.0 Results

https://mlcommons.org/benchmarks/training/

結果は、これまでで最大となる1万1616個のNVIDIA H100 GPUを搭載したシステムがトップでした。2023年に計測された最大のシステムは3584台のH100を搭載していて、今回の規模は前回のおよそ3倍。GPT-3のトレーニングトライアルを、1024個のIntelハードウェアだと67分かかったところ、1万1616個のH100を積んだシステムは3分半未満で突破したそうです。



NVIDIAは、「Stable Diffusion v2のトレーニング性能も、前回提出されたものと同じシステム規模で最大80%高速化しました。これらの進歩は、NVIDIAソフトウェアスタックに対する多数の機能強化を反映したものであり、ソフトウェアとハードウェアの改良が、いかにトップクラスの性能を実現するために手を取り合っているかを示しています」と述べました。

NVIDIAはソフトウェアスタックへ多数の最適化を施していて、512個のH100で構成されたシステムは1年前と比較して最大27%高速化したとのこと。NVIDIAは「継続的なソフトウェアの強化が、同じハードウェアであっても、いかにパフォーマンスを大幅に向上させることができるかを浮き彫りにしています」と指摘しています。



MLPerf Training 4.0では、初めてLLama 2 70BのLoRA微調整とGNN(グラフニューラルネットワーク)のベンチマークが導入されています。NVIDIAはこの両方で優れた性能を発揮し、GPUを8個から1024個まで拡張した規模のGPUは1.5分でベンチマークを完了。GNNではH100を搭載したプラットフォームが優れたスコアを出し、H200はシングルノードのGNNトレーニングにおいてH100と比較して47%の向上を実現したとのことです。

なお、NVIDIAはH100の後継であるH200について「141GBのHBM3メモリと、H100と比較して40%以上のメモリ帯域幅を持つHopperアーキテクチャの強みを基盤としています。AIトレーニングで可能なことの限界を押し広げるH200は、MLPerfトレーニングのデビュー戦において、H100のパフォーマンスを最大47%向上させました」と述べました。