2024年10月15日から17日にかけてカリフォルニア州サンノゼで行われているOpen Compute Project Global Summit 2024において、MetaがAI向けのオープンなハードウェアについての自社のイノベーションを発表するとともに今後のビジョンについても語りました。

Meta’s open AI hardware vision - Engineering at Meta

https://engineering.fb.com/2024/10/15/data-infrastructure/metas-open-ai-hardware-vision/



AI向けのハードウェアの需要は年々高まっており、Metaは2023年にAIをトレーニングするためのクラスターを16倍に大規模化したほか、今後さらに増加することを見込んでいます。また、コンピューティング能力を強化するだけでなく、ネットワークの能力も10倍以上に増加させる必要性を感じているとのこと。

こうした拡張スピードに付いていくため、Metaはオープンなハードウェアへの投資を積極的に行っています。今回、Metaは「オープン性の原則に基づいて構築することが最も効率的で効果的」「オープンハードウェアに投資することでAIの潜在能力を最大限に引き出し、継続的なイノベーションを推進できる」と述べ、新たなイノベーションとして「最先端のオープンラック設計」「新しいAIプラットフォーム」「高度なネットワークファブリックとコンポーネント」の3つを発表しました。

1つ目はMetaがAIワークロード向けに設計した高性能ラック「Catalina」です。Catalinaは2024年10月時点で最新のNVIDIA GB200 Grace Blackwellスーパーチップをサポートするほか、最大140kWの電力能力、液体冷却などの仕組みにより、「高まり続けるAIインフラストラクチャの需要に確実に応える」と述べられています。また、設計においてはモジュール性も重視されており、他のユーザーがラックをカスタマイズして特定のAIワークロードに対応させることも可能とのこと。



2つ目はMetaが2022年に発表した次世代AIプラットフォーム「Grand Teton」のアップデートです。Grand Tetonは電源や制御、コンピューティング、ファブリックインターフェイスなどを統合した単一のモノリシックシステムのため、簡単にシステムを展開することができ、大規模なAI推論ワークロードの信頼性を高めつつ迅速にスケーリングできます。今回、新たにAMD Instinct MI300Xをサポートしたほか、計算能力・メモリサイズ・ネットワーク帯域幅などが強化されているとのこと。



3つ目はオープンでベンダーに依存しないネットワークバックエンドです。AIや機械学習などのデータ集約型アプリケーションの要求に応じて、スケーラブルで高性能なネットワークを提供するための分散型ネットワークアーキテクチャであるDisaggregated Scheduled Fabric(DSF)をMetaは新たに構築したほか、BroadcomとCiscoのASICをベースにした新しい51Tファブリックスイッチや新たなNICモジュールとしてFBNICを開発・構築したとのこと。



また、MetaはMicrosoftと共同でオープンイノベーションを推進してきており、2024年10月時点では新たな分散型パワーラックである「Mount Diablo」に取り組んでいるとのこと。Mount Diabloではラック当たりのAIアクセラレータの数が増加し、「AIインフラストラクチャが大幅に進歩する」と述べられています。

Metaは「AIの潜在能力を最大限に発揮するためにオープンソフトウェアフレームワークが重要なのは当然のこと」と述べつつ、「AIの進歩に必要な、高性能でコスト効率が高く、適応性にすぐれたインフラストラクチャを提供するためにオープンなハードウェアフレームワークも重要」としてOpen Compute Projectコミュニティへの参加を呼びかけました。