AIベンチマークのMLPerf Ver.4.1が公開され、NVIDIA B200やGoogle Trilliumなどの新しいAIチップの結果が明らかとなりました。それによると、NVIDIAの次世代GPUであるB200は、現行のH100と比較して一部のテストで2倍の性能を達成し、Googleの新しいアクセラレータであるTrilliumは2023年にテストしたチップと比較して約4倍の性能向上を示しています。

New MLPerf Training v4.1 Benchmarks Highlight Industry’s Focus on New Systems and Generative AI Applications - MLCommons

https://mlcommons.org/2024/11/mlperf-train-v41-results/



AI Training:Newest Google and NVIDIA Chips Speed AI Training - IEEE Spectrum

https://spectrum.ieee.org/ai-training-2669810566



MLPerf v4.1は、レコメンデーション、GPT-3とBERT-largeの事前学習、Llama 2 70Bの微調整、物体検出、グラフノード分類、画像生成という6つのタスクで構成されたAI向けのベンチマークです。MLPerf v4.1では初めて「Mixture of Experts(MoE)」というモデルアーキテクチャに基づく新しいベンチマークが導入されました。MoEは単一の大規模モデルではなく、複数の小規模な「専門家」モデルを使用する設計で、オープンソースのMixtral 8x7Bモデルを参照実装として使用しています。

このベンチマークには22の組織から964件の性能結果が提出され、そのうち、AMDのMI300x、AMDのEPYC Turin、GoogleのTrillium TPUv6e、IntelのGranite Rapids Xeon、NVIDIAのBlackwell B200、UntetherAIのSpeedAI 240シリーズという6つのプロセッサが初めてベンチマークテストに登場しています。

NVIDIAのBlackwell B200は計算精度を8ビットから4ビットに下げることで処理速度を向上させる方法を採用しており、GPT-3トレーニングとLLMの微調整において、GPU単位でH100の約2倍の性能を実現したとのこと。レコメンダーシステムと画像生成においても、それぞれ64%と62%の性能向上を達成したそうです。



一方、Googleの第6世代TPUであるTrilliumは、GPT-3トレーニングタスクにおいて前世代と比較して最大3.8倍の性能向上を示しましたが、NVIDIAとの競争では苦戦しています。GPT-3トレーニングで設定したチェックポイントに到達するまでに要した時間は、1万1616基のNVIDIA H100システムだと約3.44分かかったのに対して、6144基のTPU v5pシステムは11.77分でした。

電力消費については、DellのシステムがLlama 2 70Bの微調整タスクで測定を行い、8台のサーバーと64基のNVIDIA H100 GPU、16基のIntel Xeon PlatinumCPUを使用して、5分間で16.4メガジュールを消費し、米国の平均電気料金で約75セントの電力コストとなったとのこと。

アメリカ電気電子学会(IEEE)はこのベンチマーク結果を受けて、「AIトレーニングの性能向上はムーアの法則の約2倍のペースで進んでいるが、以前と比べて性能向上の伸びは緩やかになってきている。これは企業が大規模システムでのベンチマークテストの最適化を既に達成しているためで、ソフトウェアとネットワーク技術の発展により、プロセッサ数を増やすことで直線的に処理時間を短縮できるようになっている」と論じ、今後は効率化や電力消費の最適化が重要視されるだろうとしています。