UltraClusters Amazon EC2

Exécutez des applications HPC et ML à grande échelle

Pourquoi utiliser les UltraClusters Amazon EC2 ?

Les UltraClusters Amazon Elastic Compute Cloud (Amazon EC2) permet une mise à l'échelle à des milliers de GPU ou à des accélérateurs de ML conçus à cet effet, tels qu'AWS Trainium, pour accéder à la demande à un superordinateur. Il démocratise l'accès à des performances d'un superordinateur pour les développeurs de machine learning (ML), d'IA générative et de calcul haute performance (HPC) grâce à un modèle de tarification à l'usage simple sans aucun coût de configuration ou de maintenance. Les instances Amazon EC2 P5, les instances Amazon EC2 P4d et les instances Amazon EC2 Trn1 sont toutes déployées dans les UltraClusters Amazon EC2.

Les UltraClusters EC2 sont composés de milliers d'instances EC2 accélérées qui sont co-localisées dans une zone de disponibilité AWS donnée et interconnectées via le réseau Elastic Fabric Adapter (EFA) dans un réseau non bloquant à l'échelle du pétabit. Les UltraClusters EC2 donnent également accès à Amazon FSx pour Lustre, un stockage partagé entièrement géré basé sur le système de fichiers parallèle haute performance le plus populaire pour traiter rapidement des jeux de données volumineux à la demande et à grande échelle avec des latences inférieures à la milliseconde. Les UltraClusters EC2 fournissent des fonctionnalités de mise à l'échelle horizontale pour l'entraînement distribué de ML et les charges de travail HPC étroitement couplées.

Les instances Amazon EC2 P5 et Trn1 utilisent une architecture d'UltraClusters EC2 de deuxième génération qui fournit une structure réseau permettant de réduire le nombre de sauts sur le cluster, de réduire la latence et d'augmenter la mise à l'échelle.

Avantages

Les UltraClusters EC2 vous aident à réduire les temps d'entraînement et de résolution de plusieurs semaines à quelques jours seulement. Cela vous permet d'itérer plus rapidement et de commercialiser plus rapidement vos applications de deep learning (DL), d'IA générative et HPC.

Les instances P5 sont déployées dans des UltraClusters EC2 dotés d'un maximum de 20 000 GPU H100 pour fournir plus de 20 exaflops de capacité de calcul agrégée. De même, les instances Trn1 peuvent s'adapter à 30 000 accélérateurs Trainium, et les instances P4 peuvent se mettre à l'échelle jusqu'à 10 000 GPU A100 pour fournir un calcul exascale à la demande.

Les UltraClusters EC2 sont pris en charge sur une liste croissante d'instances EC2 et vous permettent de choisir la bonne option de calcul pour optimiser les performances tout en maîtrisant les coûts de votre charge de travail.

Caractéristiques

Mise en réseau haute performance

Les instances EC2 déployées dans les UltraClusters EC2 sont interconnectées au réseau EFA afin d'améliorer les performances des charges de travail d'entraînement distribuées et des charges de travail HPC étroitement couplées. Les instances P5 fournissent jusqu'à 3 200 Gbit/s ; les instances Trn1 fournissent jusqu'à 1 600 Gbit/s ; et les instances P4d fournissent jusqu'à 400 Gbit/s de réseau EFA. EFA est également couplé à NVIDIA GPUDirect RDMA (P5, P4d) et NeuronLink (Trn1) pour permettre une communication accélérateur à accélérateur à faible latence entre les serveurs grâce à un contournement du système d'exploitation.

Systèmes à haute performance

EC2 UltraClusters utilise FSx pour Lustre, un système de stockage partagé entièrement géré basé sur le système de fichiers parallèle à haute performance le plus populaire. Avec FSx pour Lustre, vous pouvez traiter rapidement des jeux de données volumineux à la demande et à l'échelle, et fournir des latences inférieures à la milliseconde. Les caractéristiques de faible latence et de haut débit de FSx pour Lustre sont optimisées pour les charges de travail de DL, d'IA générative et HPC sur les UltraClusters EC2. FSx pour Lustre alimente en données les GPU et les accélérateurs de ML des UltraClusters EC2, accélérant ainsi les charges de travail les plus exigeantes. Ces charges de travail incluent l'entraînement sur les grands modèles de langage (LLM), l'inférence par IA générative, le DL, la génomique et la modélisation des risques financiers. Vous pouvez également accéder à un stockage rentable pratiquement illimité avec Amazon Simple Storage Service (Amazon S3).

Instance prise en charge

Alimentées par les GPU NVIDIA H100 Tensor Core, les instances P5 offrent les meilleures performances dans Amazon EC2 pour l'entraînement de ML et les applications HPC.

En savoir plus

Alimentées par les GPU NVIDIA A100 Tensor Core, les instances P4D offrent des performances élevées pour l'entraînement de ML et les applications HPC.

En savoir plus

Alimentées par les accélérateurs AWS Trainium, les instances Trn1 sont spécialement conçues pour l'entraînement de ML à haute performance. Elles permettent d'économiser jusqu'à 50 % sur les coûts d'entraînement par rapport aux instances EC2 comparables.

En savoir plus