NVIDIA製グラボやAppleチップのAI推論処理能力をまとめた一覧表、どのグラボやMacを買えばいいのかの参考になる

一昔前まではグラフィックボードのメイン用途はゲームなどの3Dグラフィック処理でしたが、近年では「ローカルでAIで動作させる」ということを目的にグラフィックボードを選択する事例も増えています。大量のNVIDIA製グラフィックボードやApple製チップで大規模言語モデル「LLaMA 3」の推論処理を実行した際の処理性能をまとめたウェブページ「GPU-Benchmarks-on-LLM-Inference」を見つけたので、内容をまとめてみました。
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
GPU-Benchmarks-on-LLM-InferenceはAI研究者のXiongjie Dai氏が作成した性能比較ページで、各種グラフィックボードやApple製チップでLLaMA 3の推論処理を実行した際の秒間処理トークン数がまとまっています。なお、LLaMA 3の実行には「llama.cpp」を使用しており、「パラメーター数が8Bのモデル」「パラメーター数が8Bのモデルを量子化したもの」「パラメーター数が70Bのモデル」「パラメーター数が70Bのモデルを量子化したもの」で性能を検証しています。
性能比較表に含まれるグラフィックボードのうち、比較的入手が容易なゲーム用途のグラフィックボードの検証結果を抜き出したものが以下。最も高い性能を示したのは「RTX 4090 24GB」でした。また、「RTX 3090 24GB」「RTX 4080 16GB」「RTX 4090 24GB」の3モデルは量子化を施していないLLaMA 3 8Bを実行できています。一方で、LLaMA 3 70Bは量子化済みのモデルであっても実行不可能でした。
GPU8B Q4_K_M8B F1670B Q4_K_M70B F16RTX 3070 8GB70.94メモリ不足メモリ不足メモリ不足RTX 3080 10GB106.40メモリ不足メモリ不足メモリ不足RTX 3080 Ti 12GB106.71メモリ不足メモリ不足メモリ不足RTX 3090 24GB111.7446.51メモリ不足メモリ不足RTX 4070 Ti 12GB82.21メモリ不足メモリ不足メモリ不足RTX 4080 16GB106.2240.29メモリ不足メモリ不足RTX 4090 24GB127.7454.34メモリ不足メモリ不足
グラフィックボードを複数個搭載したマシンの処理性能はこんな感じ。グラフィックボードを増やすことでメモリ不足は解消できるものの、秒間処理トークン数に大きな違いは出ないことが分かります。
GPU8B Q4_K_M8B F1670B Q4_K_M70B F16RTX 3090 24GB 2個108.0747.1516.29メモリ不足RTX 3090 24GB 4個104.9446.4016.89メモリ不足RTX 3090 24GB 6個101.0745.5516.935.82RTX 4090 24GB 2個122.5653.2719.06メモリ不足RTX 4090 24GB 4個117.6152.6918.83メモリ不足RTX 4090 24GB 8個116.1352.1218.766.45
計算処理向けグラフィックボードの処理性能は以下の通り。
GPU8B Q4_K_M8B F1670B Q4_K_M70B F16RTX 4000 Ada 20GB58.5920.85メモリ不足メモリ不足RTX 4000 Ada 20GB 4個56.1420.587.33メモリ不足RTX 5000 Ada 32GB89.8732.67メモリ不足メモリ不足RTX 5000 Ada 32GB 4個82.7331.9411.45メモリ不足RTX A6000 48GB102.2240.2514.58メモリ不足RTX A6000 48GB 4個93.7338.8714.324.74RTX 6000 Ada 48GB130.9951.9718.36メモリ不足RTX 6000 Ada 48GB 4個118.9950.2517.966.06
そして、ハイパフォーマンスコンピューティングやAI処理向けのチップでLLaMA 3の各モデルを実行した際の推論処理性能が以下。
GPU8B Q4_K_M8B F1670B Q4_K_M70B F16A40 48GB88.9533.9512.08メモリ不足A40 48GB 4個83.7933.2811.913.98L40S 48GB113.6043.4215.31メモリ不足L40S 48GB 4個105.7242.4814.995.03A100 PCIe 80GB138.3153.1824.33メモリ不足A100 PCIe 80GB 4個117.3051.5422.687.38A100 SXM 80GB133.3853.1824.33メモリ不足A100 SXM 80GB 4個97.7045.4519.606.92H100 PCIe 80GB144.4967.7925.01メモリ不足H100 PCIe 80GB 4個118.1462.9026.209.63
また、Apple製チップ搭載Macでの推論処理性能はこんな感じ。M2 UltraとM3 Maxの性能差をみるとLLMの処理におけるメモリ容量の重要性が分かります。
GPU8B Q4_K_M8B F1670B Q4_K_M70B F16M1 7‑Core GPU 8GB9.72メモリ不足メモリ不足メモリ不足M1 Max 32‑Core GPU 64GB34.4918.434.09メモリ不足M2 Ultra 76-Core GPU 192GB76.2836.2512.134.71M3 Max 40‑Core GPU 64GB50.7422.397.53メモリ不足
Dai氏は、性能比較結果をもとに「お金を節約するならNVIDIA製のゲーム用グラフィックボード、ビジネス用途ならプロ向けグラフィックボード、省電力性能や静音性能を求めるならMacを購入してください」と結論付けています。
