写真提供:マイナビニュース

写真拡大

●GPUコンピューティングの裾野がさらに広がる
NVIDIAは、現地時間の5月8日〜11日まで米カリフォルニア州San Joseにおいて、GPUを利用した深層学習やAIなどをテーマとした技術者向け会議「GTC 2017」(GTC:GPU Technology Conference)を開催した。3日目の5月10日には、NVIDIAの創始者兼CEOのジェンスン・ファン氏がキーノートに登壇した。

GTCは、スーパーコンピュータなどのHPC(High Performance Computing:高性能コンピューティング)向けの技術会議として2009年にスタートし、その裾野を機械学習や深層学習、AIへと広げてきた。特に、2012年からの5年間は、CPUの性能向上が鈍化したこともあって、GPUを利用した並列演算に注目が集まるとともに、いまや米国内では大学でいちばん学習したいテーマとなった「AI」(人工知能)では、GPUが不可欠となるなど、GPUコンピューティングは、ずっと身近なものになった。

○次世代GPUアーキテクチャ"Volta"ベースのTesla V100をお披露目

さて、キーノートスピーチの目玉として、NVIDIAの次世代GPUアーキテクチャとなる"Volta"(ヴォルタ:開発コードネーム)が公開された。"Volta"は、これまで"グラフィックスプロセッサ"の汎用並列処理性能を向上させてきた流れから飛び出し、AIや深層学習へアーキテクチャレベルで最適化を図るアプローチに打って出た。

Tesla V100は、CUDAコアに加え、テンソル(Tensor:多次元配列)演算処理のための専用コアであるTensorコアを統合し、機械学習におけるトレーニングや推論の性能向上を大幅に引き上げることが可能だ。NVIDIAは"Volta"アーキテクチャにおいて、Tensorコアを利用した深層学習処理への最適化を図るべく、新たな命令セットを追加するなど、大幅なアーキテクチャ変更を施している。

例えば、従来のGPUアーキテクチャにおいて、4×4のマトリックス演算を行なう場合、1階層ごとに演算処理を行ない、多次元配列演算を完成させる必要があったが、Tensorコアを採用したVoltaアーキテクチャでは、4×4のマトリックス演算を行なう専用ユニットを搭載することで処理の高速化を実現する。

Googleの深層学習フレームワークとなるTensor Flowでは、Pascal世代のGPU利用時に比べ、12倍の性能向上を果たすという。このTensorコアを、Tesla V100に搭載されるGPUコアの"GV100"では、SM(Stream Processor)ごとに8基、合計640基のTensorコアを統合し、最大120TFLOPSのTensor演算性能を備えるとしている。

GV100では、TSMCの12nm FinFETプロセス「12nm FFN」で製造され、211億トランジスタで5,120基のCUDAコアを統合、7.5TFLOPSの64bit浮動小数点演算性能(FP64)、15TFLOPSの32bit浮動小数点演算性能(FP32)を実現。メモリには、4,096bitインターフェースで900GB/sの帯域を実現するHBM2メモリを16GB搭載するほか、GPU間やCPUとの接続に利用されるNVIDIA独自のインターコネクト技術NVLinkも300GB/sの第2世代へと進化を果たしている。

これにより、Tesla V100では、HPC用途の汎用演算において、Pascal世代比で1.5倍の浮動小数点演算性能を実現するほか、深層学習のトレーニングでは12倍、推論では6倍のテンソル浮動小数点演算性能を実現するとしている。なお、GV100のダイサイズは815平方mmと、半導体の露光限界ギリギリのサイズで、フアン氏によれば「30億ドルの予算をかけて開発されたチップである」という。

またNVIDIAは、Tesla V100を8基搭載し、960テンソルTFLOPSの演算性能を実現する。深層学習向けサーバー「DGX-1 with Tesla V100」の受注を開始した。これはすでに提供中の「DGX-1」のアクセラレータをTesla V100に置き換えたものになる。供給が開始される2017年第3四半期までは、PascalアーキテクチャのTesla P100を搭載した現行製品を提供し、後日Volta版と交換する無償アップグレードにも対応する。価格もPascal版と同じ149,000ドルに据え置かれている。

さらに、スタートアップや個人用の深層学習向けサーバーとして、2CPU構成で4基のPCI Express版のTesla V100を搭載する「DGX STATION with Tesla V100」を発表した。価格は69,000ドル。このほか、クラウド企業や研究機関用に、GPUクラウドサーバーの「HGX-1 with Tesla V100」も追加。用途や規模に応じて、2CPU:8GPU、2CPU:4GPU、1CPU:2GPUの構成を選ぶことができる。

●トヨタがDRIVE PX Xavierで自動運転車両を開発へ
○深層学習向けフレームワークへの最適化も進める

NVIDIAは機械学習や深層学習向けのフレームワークである「TensorFlow」や「Caffe」のデータフローグラフをGPUに最適化するランタイムコンパイラ「TensorRT」の最新版をリリース。これにより、Volta世代では深層学習の"推論"にかかるパフォーマンスを従来比で3.5倍に高速化するという。

そのスループットは、5,000イメージ/秒を超え、レイテンシは7ms以下と、Intelが年内に市場投入を計画するサーバー向けSkylakeに比べて、15〜25倍の性能向上が望めるとアピール。このほかにもVoltaでは「Caffe2」や「Microsoft Cognitive Toolkit」「MXNet」などの深層学習フレームワークをサポートする。

また、シングルGPU構成のPCでも、クラウド上のハードウェアリソースやソフトウェアスタックを利用することで、AIや深層学習アプリケーションの開発を加速するクラウドサービス「NVIDIA GPU Cloud」のベータテストを7月より開始することもアナウンスした。

○AIの活用もさらに広がる

いまや、AIはさまざまな分野に活用されるようになってきた。例えば、SAPはスポーツ中継などの映像から、ブランドロゴの表示時間や大きさなどをオブジェクト認識・追跡の技術を利用して検知し、広告効果を測定するアプリケーションなどを提供している。

まるでホンモノそっくりのリアリスティックな映像を生み出すレイトレーシング技術においても、深層学習の利用により、サンプル数が少ないとレンダリング時に生じやすくなるノイズを効率的かつ高速に除去する技術を披露した。

さらに、フアン氏は、Tesla V100ベースの「DGX-1 with Tesla V100」のAI性能をアピールすべく、2つの銀河が何億年もの間に衝突を繰り返した場合のシミュレーションや、ある写真のスタイルを、ほかの写真にも適用して新しい写真を造り上げるスタイル・トランスファーのデモなどを披露した。

○トヨタがDRIVE PX Xavierで自動運転車両を開発へ

また、われわれの身近な生活にもAIは浸透しはじめている。SiriやCortanaといった音声アシスタントはもとより、自動運転や運転アシスタント、都市におけるインテリジェントなセキュリティ、そしてロボットと、その裾野は確実に広がっている。

こうした中、NVIDIAは、トヨタ自動車の自動運転車両の開発にAIドライブプラットフォーム「DRIVE PX Xavier」が採用されたことを発表した。トヨタ自動車が採用を決めたXavierは、ARM CPUと512コアのVolta GPUに加えて、10 TOPSの深層学習アクセラレータ(Deep Learning Accelerator:DLA)を統合することで、わずか30Wで30TOPSの深層学習性能を実現するという。

さらにNVIDIAは、Xavierに搭載されたDLAをオープンソースとして公開することで、他社がDLAを採用したチップや製品を開発できるようにもするとした。このXavier DLAの詳細については、7月に一部パートナーに解禁され、9月には一般に公開される計画だ。

○ロボット分野にもAIを

NVIDIAはロボット分野にも、これまでの深層学習やAIでの経験を活かし、「ISAAC」と呼ぶロボットシミュレータを発表した。このISAACは、ロボットが動作を学習する過程をシミュレーションすることで、ロボットの開発時間を短縮するというもの。

このバックグラウンドには自動運転でAI学習をさせた経験が活かされており、開発者はNVIDIA GPUを搭載したコンピュータで、ロボットに搭載する頭脳となるJetsonの仮想環境を作り、ISAACに目的とする動作を繰り返させ、学習効果を効率よく高めることで、ロボット開発を加速する狙いだ。

このほかNVIDIAは、自動車開発などをホンモノと見紛うばかりのフォトリアリスティックなレンダリングをVR空間に生成し、複数人で共同作業を行なえるようにするVR環境「Project Holodeck」を発表。

スウェーデンのスーパーカーメーカーであるケーニグセグ・オートモーティブの最新モデルで、ツインターボV8エンジンと3つの電気モーターを組み合わせたハイブリッドスーパーカーRegeraを、複数のユーザーが体験するデモを披露した。

実際の設計データから作られたRegeraは、外観をチェックできるだけでなく、X線モードでエンジンなどの内部構造を確かめたり、実際に車に乗り込んでインテリアをチェックできるなどのインタラクティブ性を持つ。NVIDIAは、この共同VR環境は、2017年から早期利用ができるようになる予定だと言う。

(本間文)