NVIDIAが2024年3月に発表したGPUアーキテクチャ「Blackwell」は、2080億個ものトランジスタを搭載するなど複数の革新的なテクノロジーが搭載されています。しかし、極限まで性能を求めたことによりBlackwellでは発熱などの問題が生じているとのことです。

Nvidia’s Future Relies on Chips That Push Technology’s Limits - WSJ

https://www.wsj.com/tech/nvidias-future-relies-on-chips-that-push-technologys-limits-bd3839fc



Blackwell採用チップでは、これまでのAIチップから設計が大きく変更され1つのチップに2つのプロセッサと複数のメモリコンポーネントをシリコンや金属、プラスチック素材に組み合わせることで構成されています。これにより、前世代の「Hopper」を採用したチップと比べてサイズが倍増し、搭載されるトランジスタ数は2.6倍の2080億個になっており、さらなるパフォーマンスの向上が見込まれています。

NVIDIAが数兆パラメータ規模のAIモデルを実現するGPUアーキテクチャ「Blackwell」と新GPU「B200」を発表 - GIGAZINE



NVIDIAのジェンスン・フアンCEOは「Blackwellチップの需要は猛烈な勢いで高まっています」と述べていますが、関係者によると、Blackwellチップには複数のエンジニアリング上の課題が存在しているとのこと。AIチップの製造の際には完璧が求められ、1つの部品に欠陥が生じると重大な問題が発生する可能性があります。Blackwellチップでは無数のトランジスタなど、従来製品よりも多くのコンポーネントを搭載していることから品質上の問題が発生しやすくなっていることが指摘されています。

また、無数のコンポーネントから発生する熱はパッケージ内のさまざまな部品や材料を故障させるリスクがあり、最悪の場合、1台当たり4万ドル(約580万円)とも言われるBlackwellチップがまったく動作しなくなる危険性もあります。チップ製造スタートアップのCerebras Systemsの創設者であるアンドリュー・フェルドマン氏は「2つのチップを1つに統合する技術を開発することは難しく、それ以上に倍増する技術はさらに困難を極めます」と指摘しました。

投資銀行UBSのアナリストは「Blackwellの性能を実現するために必要だった新たなアプローチには、製造の複雑さの増大や、信頼性と性能に影響を与えかねない反りなどのハードルが伴いました。これらがBlackwellの展開を困難にする主な要因でしたが、今後改修を行うことでNVIDIAは2025年出荷という当初の予定通りにチップの生産を開始できるはずです」と述べています。



これらの指摘を受けてフアン氏は2024年8月28日に、「チップの信頼性向上のために、Blackwellのデザインに変更を加えました」と発表しています。なお、デザインの変更に伴う機能の変更は必要なかったとのことです。また、コレット・クルスCFOは「Blackwellの生産拡大に向けてNVIDIAは順調に進んでおり、2025年第4四半期には数十億ドル(数千億円)もの収益につながるでしょう」と語りました。

海外メディアのウォール・ストリート・ジャーナルは「NVIDIAは近年、次世代チップを隔年ではなく毎年リリースするようになりました。そのため、製造上の問題を迅速に解決しなければならないというプレッシャーが社内で高まっているようです」と指摘。NVIDIAは「新製品の投入頻度とその複雑さが増大したことにより、品質または生産の問題が発生し、コストの上昇や出荷の遅延が生じる可能性があります」と伝えています。