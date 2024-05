Intelが2023年12月に正式発表した第14世代CoreプラットフォームのノートPC向けプロセッサ「Core Ultra」は、2023年9月に発表されたMeteor Lakeアーキテクチャがベースになっています。そんなCore UltraにはAI処理に特化したニューラルプロセッシングユニット(NPU)が搭載されており、このNPUについて海外メディアのChips and Cheeseが解説しています。

Intel Meteor Lake’s NPU - Chips and Cheesehttps://chipsandcheese.com/2024/04/22/intel-meteor-lakes-npu/Core Ultraに搭載されたNPUは「NPU 3720」と呼ばれています。そんなNPU 3720には2つのニューラルコンピューティングエンジン(NCE)タイルが搭載されており、これらのユニットは1サイクル当たりINT8で4096回もの積和演算(MAC)を実行することが可能です。また、NPU 3720のクロック速度は1.16GHzと比較的低めですが、処理速度は最大9.5TOPSにも達します。基本的にNPUはGPUと同様、PCIeデバイスのように動作し、ホストからコマンドを受け取ることで動作します。Intelは、カスタムコマンドプロセッサを構築する代わりに、32ビットのマイクロコントローラーを使用することでNPUに対してリアルタイムオペレーティングシステムを実行する命令を下しています。さらに、NPUはタスクマネージャー上でCPUやGPUとは別に使用率を監視することが可能です。また、各NCEタイルには2MBのソフトウェア管理用のSRAMが搭載されており、タグ比較や仮想メモリのアドレス変換を行うことなく、SRAMストレージからデータを直接引き出すことが可能です。この結果、マシンのコンパイラとソフトウェアに負担をかけることなくデータをSRAMに移すこともできるとのこと。NCEタイルのMACアレイはさらに512個ものMAC処理エンジン(MPE)に分割され、各エンジンはサイクルごとに4回のINT8積和演算が可能です。なお、16ビット浮動小数点数(FP16)ではINT8の半分のレートでのMACが実施されます。以下はCore Ultraに搭載されたNPU、CPU、内蔵グラフィックスの演算性能を比較したグラフです。オレンジで示されたNPUの演算性能はマトリクスサイズが4096を迎えると1349.39GFLOPSの最高値をたたき出すものの、これを超えると内蔵グラフィックスの性能に再び後塵を拝することになります。また、NPUはグラフィックのレンダリングのような行列の乗算を含む処理を苦手としており、以下のグラフではオレンジのNPU 3720の処理性能が、赤で示された「RX 6900 XT」はおろか、緑で示された2016年に発売されたGPU「GTX 1080」の性能にも届いていないことが示されています。一方でNPUはストレージに比較的高速にアクセスすることが可能で、内蔵グラフィックと比較するとレイテンシーが低いことが示されています。それでも、Stable Diffusionを用いた画像生成速度を比較すると、AMDのRX 6900 XTが最も性能に優れ、次点でCore Ultraに搭載された内蔵グラフィックス、そしてNPUと続きます。この結果についてChips and Cheeseは「NPUでStable Diffusionを実行するのは、フラストレーションがたまります」と吐露しています。Chips and CheeseはCore Ultraに搭載されたNPUについて「機械学習ワークロードでのパフォーマンス向上や消費電力の低下を目指しており、INT8やFP16に焦点を当ててきました」と説明。一方で「NPUを用いたアクセラレーターは本質的に汎用(はんよう)コンピューティングにおける柔軟さに欠け、特定の機械学習モデルを実行できない場合があります。そのため、カスタムアクセラレーターの設計には、特定の機械学習モデルを実行させるために構築したソフトウェアエコシステムが必要です」と指摘しています。さらに「一部の機械学習モデルによっては、NPUの使用によって消費電力が低く抑えられますが、必ずしもパフォーマンスが向上するとは限りません。たしかに、Core Ultra内蔵グラフィックスの電力は最大20Wに達する一方で、NPUの電力が7Wを超えることはめったにありません。しかし、消費電力の高さと引き換えに内蔵グラフィックスはNPUを上回るパフォーマンスと柔軟性をユーザーに提供することが可能で、機械学習ワークロードを実行しようとしない限り、内蔵グラフィックスの方が桁違いに高いパフォーマンスを実感できるでしょう」と述べ、「確かにNPUは特定の状況で役に立つかもしれませんが、『AI PC』とラベル付けするのは間違っていると思います」と批判しました。最後にChips and Cheeseは「ここ15年でGPUの性能は飛躍的に向上してきました。今日ではGPUを用いたコンピューティングは合理的に使用可能な状態にまで達しています。NPUにも同じような進化が起こる事を祈っています」との展望を語っています。