Amazon EC2 UltraClusters

Jalankan aplikasi HPC dan ML dalam skala besar

Mengapa menggunakan Amazon EC2 UltraClusters?

Amazon Elastic Compute Cloud (Amazon EC2) UltraClusters dapat membantu Anda melakukan penskalaan hingga ribuan GPU atau akselerator ML yang dibuat khusus, seperti AWS Trainium, untuk mendapatkan akses sesuai permintaan ke superkomputer. Mesin ini mendemokratisasikan akses ke performa kelas superkomputasi untuk developer machine learning (ML), AI generatif, dan komputasi performa tinggi (HPC) melalui model penggunaan bayar sesuai penggunaan yang sederhana tanpa biaya pengaturan atau pemeliharaan. Instans P5 Amazon EC2, instans P4d Amazon EC2, dan instans Trn1 Amazon EC2 semuanya dilakukan deployment di Amazon EC2 UltraClusters.

EC2 UltraClusters terdiri dari ribuan instans EC2 terakselerasi yang ditempatkan bersama di Zona Ketersediaan AWS tertentu dan saling terhubung menggunakan jaringan Elastic Fabric Adapter (EFA) dalam jaringan nonblok berskala petabita. EC2 UltraClusters juga menyediakan akses ke Amazon FSx for Lustre, sebuah penyimpanan bersama terkelola penuh yang dibangun di atas sistem file paralel performa tinggi paling populer untuk memproses set data besar dengan cepat sesuai permintaan dan dalam skala besar dengan latensi submilidetik. EC2 UltraClusters menyediakan kemampuan menskalakan keluar untuk pelatihan ML terdistribusi dan beban kerja HPC yang digabungkan secara erat.

Instans P5 dan Trn1 Amazon EC2 menggunakan arsitektur EC2 UltraClusters generasi kedua yang menyediakan fabric jaringan untuk memungkinkan lebih sedikit lompatan jaringan di seluruh klaster, dengan latensi lebih rendah, dan skala yang lebih besar.

Manfaat

EC2 UltraClusters membantu Anda mengurangi waktu pelatihan dan waktu penyelesaian dari berminggu-minggu menjadi hanya beberapa hari. Hal ini membantu Anda melakukan iterasi dengan lebih cepat serta membuat aplikasi deep learning (DL), AI generatif, dan HPC Anda dapat dipasarkan dengan lebih cepat.

Instans P5 dilakukan deployment di EC2 UltraClusters hingga 20.000 GPU H100 untuk memberikan lebih dari 20 exaflop kemampuan komputasi agregat. Instans Trn1 juga dapat menskalakan hingga 30.000 akselerator Trainium, dan instans P4 dapat menskalakan hingga 10.000 GPU A100 untuk memberikan komputasi exascale sesuai permintaan.

EC2 UltraClusters didukung pada daftar instans EC2 yang terus bertambah dan memberi Anda fleksibilitas untuk memilih opsi komputasi yang tepat guna memaksimalkan performa sekaligus menjaga biaya tetap terkendali untuk beban kerja Anda.

Fitur

Jaringan performa tinggi

Instans EC2 yang dilakukan deployment di EC2 UltraClusters saling berhubungan dengan jaringan EFA untuk meningkatkan performa beban kerja pelatihan terdistribusi dan beban kerja HPC yang digabungkan secara erat. Instans P5 menghasilkan hingga 3.200 Gbps; instans Trn1 menghasilkan hingga 1.600 Gbps; dan instans P4d menghasilkan jaringan EFA hingga 400 Gbps. EFA juga digabungkan dengan NVIDIA GPUDirect RDMA (P5, P4d) dan NeuronLink (Trn1) untuk memungkinkan komunikasi akselerator ke akselerator dengan latensi rendah di antara server tanpa melalui sistem operasi.

Penyimpanan performa tinggi

EC2 UltraClusters menggunakan FSx for Lustre, penyimpanan bersama terkelola penuh yang dibangun di atas sistem file paralel performa tinggi paling populer. Dengan FSx for Lustre, Anda dapat dengan cepat memproses set data besar sesuai permintaan dan dalam skala besar, serta memberikan latensi submilidetik. Karakteristik latensi rendah dan throughput tinggi FSx for Lustre dioptimalkan untuk DL, AI generatif, dan beban kerja HPC pada EC2 UltraClusters. FSx for Lustre membuat data terus diberikan ke GPU dan akselerator ML di EC2 UltraClusters sehingga mempercepat beban kerja yang paling berat. Beban kerja ini termasuk pelatihan model bahasa besar (LLM), inferensi AI generatif, DL, genomika, dan pemodelan risiko keuangan. Anda juga dapat mengakses penyimpanan hemat biaya yang hampir tak terbatas dengan Amazon Simple Storage Service (Amazon S3).

Instans yang didukung

Ditenagai oleh GPU NVIDIA H100 Tensor Core, instans P5 memberikan performa tertinggi di Amazon EC2 untuk pelatihan ML dan aplikasi HPC.

Pelajari selengkapnya

Ditenagai oleh GPU NVIDIA A100 Tensor Core, instans P4d memberikan performa tinggi untuk pelatihan ML dan aplikasi HPC.

Pelajari selengkapnya

Ditenagai oleh akselerator AWS Trainium, instans Trn1 dibuat khusus untuk pelatihan ML performa tinggi. Instans ini menawarkan penghematan biaya pelatihan hingga 50% dibandingkan instans EC2 yang setara.

Pelajari selengkapnya