Amazon EC2 UltraClusters

HPC アプリケーションと ML アプリケーションを大規模に実行

Amazon EC2 UltraClusters を利用すべき理由

Amazon Elastic Compute Cloud (Amazon EC2) UltraClusters は、数千の GPU または AWS Trainium などの専用の ML アクセラレーターにスケールし、スーパーコンピュータにオンデマンドでアクセスするのに役立ちます。シンプルな従量制料金の使用モデルを通じて、設定やメンテナンスのコストなしで、機械学習 (ML)、生成 AI、および高性能コンピューティング (HPC) のデベロッパーのために、スーパーコンピューティングクラスのパフォーマンスへのアクセスを民主化します。Amazon EC2 P5 インスタンス、Amazon EC2 P4d インスタンス、および Amazon EC2 Trn1 インスタンスはすべて、Amazon EC2 UltraClusters にデプロイされています。

EC2 UltraClusters は、特定の AWS アベイラビリティーゾーンに共同配置され、ペタビット規模のノンブロッキングネットワークで Elastic Fabric Adapter (EFA) ネットワークを使用して相互接続された、数千のアクセラレーテッド EC2 インスタンスで構成されています。また、EC2 UltraClusters は、Amazon FSx for Lustre へのアクセスも提供します。Amazon FSx for Lustre は、極めて人気のある高性能並列ファイルシステム上に構築されたフルマネージド共有ストレージであり、大量のデータセットをオンデマンドで、かつ、ミリ秒未満のレイテンシーで大規模かつ迅速に処理します。EC2 UltraClusters は、分散 ML トレーニングと密結合された HPC ワークロード向けにスケールアウト機能を提供します。

Amazon EC2 P5 および Trn1 インスタンスは、クラスター全体のホップ数の削減、レイテンシーの低減、スケールの拡大を可能にするネットワークファブリックを提供する第 2 世代の EC2 UltraClusters アーキテクチャを使用します。

利点

EC2 UltraClusters は、トレーニング時間とソリューションの実現までの時間を数週間からわずか数日に短縮するのに役立ちます。これは、より迅速にイテレーションし、深層学習 (DL)、生成 AI、HPC アプリケーションをより迅速に市場に投入するのに役立ちます。

P5 インスタンスは、最大 20,000 個の H100 GPU を備えた EC2 UltraClusters にデプロイされ、20 エクサフロップスを超える総合コンピューティング機能を提供します。同様に、Trn1 インスタンスは 30,000 個の Trainium アクセラレーターにスケールでき、P4 インスタンスは 10,000 個の A100 GPU にスケールして、オンデマンドでエクサスケールのコンピューティングを提供します。

EC2 UltraClusters をサポートする EC2 インスタンスは増え続けており、ワークロードのコストを抑えながらパフォーマンスを最大化するために適切なコンピューティングオプションを柔軟に選択できます。

特徴

高性能ネットワーク

EC2 UltraClusters にデプロイされた EC2 インスタンスは、EFA ネットワークで相互接続され、分散トレーニングワークロードと密結合 HPC ワークロードのパフォーマンスを改善します。P5 インスタンスは最大 3,200 Gbps を提供します。Trn1 インスタンスは最大 1,600 Gbps を提供し、P4d インスタンスは最大 400 Gbps の EFA ネットワークを提供します。また、EFA は NVIDIA GPUDirect RDMA (P5、P4d) および NeuronLink (Trn1) とも連携しており、オペレーティングシステムをバイパスしてサーバー間の低レイテンシーのアクセラレーター間通信を可能にします。

ハイパフォーマンスストレージ

EC2 UltraClusters は、極めて人気のある高性能並列ファイルシステム上に構築された、フルマネージド共有ストレージである FSx for Lustre を使用します。FSx for Lustre を利用すると、巨大なデータセットをオンデマンドで大規模かつ迅速に処理し、1 ミリ秒未満のレイテンシーを実現できます。FSx for Lustre の低レイテンシーかつ高スループットの特性は、EC2 UltraClusters 上の DL、生成 AI、および HPC ワークロード向けに最適化されています。FSx for Lustre は、EC2 UltraClusters の GPU と ML アクセラレーターにデータが提供され続けるようにし、極めて要求の厳しいワークロードを加速します。これらのワークロードには、大規模言語モデル (LLM) トレーニング、生成 AI 推論、DL、ゲノミクス、および金融リスクモデリングが含まれます。また、Amazon Simple Storage Service (Amazon S3) を利用すると、費用対効果の高い事実上無制限のストレージにアクセスできます。

サポートされているインスタンス

NVIDIA H100 Tensor Core GPU を搭載した P5 インスタンスは、ML トレーニングと HPC アプリケーションのために Amazon EC2 で極めて高いパフォーマンスを提供します。

詳細を確認する

NVIDIA A100 Tensor Core GPU を搭載した P4d インスタンスは、ML トレーニングと HPC アプリケーションのために高いパフォーマンスを提供します。

詳細を確認する

AWS Trainium アクセラレーターを搭載した Trn1 インスタンスは、高性能 ML トレーニング用に特別に構築されています。同等の EC2 のインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減します。

詳細を確認する