GoogleがGoogle I/O 2024の基調講演の中で、第6世代Tensor Processing Unit(TPU)の「Trillium」を発表しました。

Introducing Trillium, sixth-generation TPUs | Google Cloud Blog

https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus/







Googleがこれまでで最もパフォーマンスが高くエネルギー効率の高い第6世代TPUの「Trillium」を発表しました。Trilliumは前世代のTPU v5eと比較して、チップ当たりのピークパフォーマンスが4.7倍も優れています。これを実現するため、GoogleはTPUのマトリックス乗算ユニット(MXU)のサイズを拡張し、クロック速度を向上させています。



また、TrilliumはTPU v5eと比較して高帯域幅メモリ(HBM)の容量と帯域幅が2倍に増加し、大きなキーバリューキャッシュを備えたより大きなモデルを操作できるようになります。Trilliumが採用した次世代HBMにより、高いメモリ帯域幅、改善された電力効率、柔軟なチャネルアーキテクチャを実現可能となり、メモリスループットも向上。これにより、大規模モデルのトレーニング時間と処理待ち時間も短縮できるようになっています。

加えて、TrilliumはTPU v5eと比較して、チップ間相互接続(ICI)の帯域幅も2倍に進化しました。ICIの帯域幅が2倍になることで、ポッド内の256個のチップを備えたカスタム光ICIインターコネクトと、クラスタ内の数百のポッドまで拡張できるGoogle Jupiter Networkingの戦略的な組み合わせが可能となり、トレーニングと推論のジョブを数万個のチップにまで拡張できるようになります。

さらに、高度なランキングや推奨ワークロードで一般的な超大規模エンベディングを処理するための特殊なアクセラレータである第3世代SparseCoreを搭載しています。SparseCoreはTensorCoreからのランダムで粒度の細かいアクセスを戦略的にオフロードすることで、埋め込みの多いワークロードを高速化することに成功しているそうです。

Trilliumを使用すると、基礎モデルの次の波をより迅速にトレーニングし、待ち時間を短縮し、コストを削減してそれらのモデルを提供できるようになります。また、TrilliumはTPU v5eと比較するとエネルギー効率が67%以上優れている点も特徴です。

Trilliumは単一の高帯域幅、低遅延のポッドで最大256チップまで拡張できます。このポッドレベルの拡張性を超えて、マルチスライステクノロジーとチタンインテリジェンスプロセッシングユニット(IPU)を使用することで、Trilliumは数百のポッドに拡張することも可能。この場合、毎秒マルチペタビットで相互接続されたビル規模のスーパーコンピューター内の数万個のチップを接続できるようになっています。

Google CloudユーザーがTrilliumを利用できるようになるのは2024年後半です。



なお、Google I/O 2024の基調講演は以下から視聴可能で、動画の39分辺りからTrilliumの発表の様子をチェックできます。

Google Keynote (Google I/O ‘24) - YouTube