Amazon SageMaker Model Training

Latih model ML dengan cepat dan hemat biaya

Apa itu Amazon SageMaker Model Training?

Pelatihan Model Amazon SageMaker mengurangi waktu dan biaya untuk melatih serta menyetel model machine learning (ML) dalam skala besar tanpa perlu mengelola infrastruktur. Anda dapat memanfaatkan infrastruktur komputasi ML beperforma tertinggi yang saat ini tersedia dan SageMaker dapat secara otomatis menaikkan atau menurunkan skala infrastruktur, dari satu hingga ribuan GPU. Karena hanya membayar untuk yang digunakan, Anda dapat mengelola biaya pelatihan dengan lebih efektif. Untuk melatih model deep learning lebih cepat, SageMaker membantu Anda memilih dan menyempurnakan set data secara waktu nyata. Pustaka pelatihan terdistribusi SageMaker dapat membagi model besar dan set data pelatihan secara otomatis di seluruh instans AWS GPU atau Anda dapat menggunakan pustaka pihak ketiga, seperti DeepSpeed, Horovod, atau Megatron. Latih model fondasi (FM) selama berminggu-minggu dan berbulan-bulan tanpa gangguan dengan memantau dan memperbaiki klaster pelatihan secara otomatis.

Amazon SageMaker MLOps

Cara kerja

Latih dan sesuaikan model ML dalam skala besar dengan alat ML canggih dan infrastruktur komputasi ML yang memiliki performa tertinggi.

Keuntungan pelatihan hemat biaya

Infrastruktur terkelola untuk pelatihan berskala besar dan hemat biaya

Amazon SageMaker menawarkan berbagai pilihan GPU dan CPU serta akselerator AWS, seperti AWS Trainium dan AWS Inferentia, untuk memungkinkan pelatihan model skala besar. SageMaker secara otomatis menaikkan atau menurunkan skala infrastruktur, mulai dari satu hingga ribuan GPU. SageMaker HyperPod dibuat khusus untuk pelatihan terdistribusi skala besar, sehingga Anda dapat melatih model fondasi (FM) lebih cepat.

Pelatihan terdistribusi performa tinggi

Dengan hanya beberapa baris kode, Anda dapat menambahkan paralelisme data atau paralelisme model ke skrip pelatihan Anda. SageMaker membuatnya lebih cepat untuk melakukan pelatihan terdistribusi dengan secara otomatis membagi model dan set data pelatihan Anda di seluruh instans AWS GPU.

Alat bawaan untuk akurasi tertinggi dan biaya terendah

SageMaker dapat secara otomatis menyesuaikan model Anda dengan menyesuaikan ribuan kombinasi parameter algoritma untuk mendapatkan prediksi yang paling akurat. Gunakan alat debugging dan pembuatan profil untuk memperbaiki masalah performa serta mengoptimalkan performa pelatihan dengan cepat.

Alat bawaan untuk interaktivitas dan pemantauan

SageMaker memungkinkan eksperimen ML yang efisien untuk membantu Anda melacak iterasi model ML dengan lebih mudah. Tingkatkan performa pelatihan model dengan memvisualisasikan arsitektur model untuk mengidentifikasi dan memperbaiki masalah konvergensi.

Latih model dalam skala besar

Infrastruktur terkelola penuh dalam skala besar

Kelola sumber daya sistem secara efisien dengan berbagai pilihan GPU dan CPU. Ini termasuk GPU NVIDIA A100 dan H100 serta akselerator AWS seperti AWS Trainium dan AWS Inferentia. SageMaker menaikkan atau menurunkan skala infrastruktur secara otomatis, dari satu hingga ribuan GPU.

Amazon SageMaker Hyperpod

SageMaker HyperPod menghilangkan pekerjaan berat yang tidak terdiferensiasi dalam membangun dan mengoptimalkan infrastruktur ML untuk melatih FM, sehingga mengurangi waktu pelatihan hingga 40%. SageMaker HyperPod telah dikonfigurasi sebelumnya dengan pustaka pelatihan terdistribusi SageMaker yang memungkinkan Anda membagi beban kerja pelatihan secara otomatis ke ribuan akselerator, sehingga beban kerja dapat diproses secara paralel untuk meningkatkan performa model. Ketika kegagalan perangkat keras terjadi, SageMaker HyperPod secara otomatis mendeteksi kegagalan tersebut, memperbaiki atau mengganti instans yang rusak, dan melanjutkan pelatihan dari titik pemeriksaan terakhir yang disimpan, memungkinkan Anda berlatih selama seminggu atau berbulan-bulan dalam pengaturan terdistribusi tanpa gangguan.

Pelajari selengkapnya

Pelatihan terdistribusi performa tinggi

Pelajari selengkapnya

Alat bawaan untuk akurasi tertinggi dan biaya terendah

Penyetelan Model Otomatis

SageMaker dapat secara otomatis menyetel model Anda dengan menyesuaikan ribuan kombinasi parameter algoritma untuk sampai pada prediksi yang paling akurat, menghemat berminggu-minggu usaha. Hal ini membantu Anda menemukan versi model terbaik dengan menjalankan banyak tugas pelatihan pada set data Anda.

Pelajari selengkapnya

Pelatihan Spot Terkelola

SageMaker membantu mengurangi biaya pelatihan hingga 90 persen dengan secara otomatis menjalankan tugas pelatihan ketika kapasitas komputasi tersedia. Tugas pelatihan ini juga tahan terhadap gangguan yang disebabkan oleh perubahan kapasitas.

Pelajari selengkapnya

Debugging

Amazon SageMaker Debugger menangkap tugas pelatihan metrik dan profil secara waktu nyata sehingga Anda dapat dengan cepat memperbaiki masalah performa sebelum melakukan deployment model ke produksi. Anda juga dapat terhubung dari jarak jauh ke lingkungan pelatihan model di Amazon SageMaker untuk debugging dengan akses ke kontainer pelatihan dasar.

Pelajari selengkapnya

Profiler

Amazon SageMaker Profiler membantu Anda mengoptimalkan performa pelatihan dengan wawasan pembuatan profil perangkat keras terperinci termasuk metrik pemanfaatan GPU dan CPU agregat, plot pelacakan GPU/CPU resolusi tinggi, anotasi kustom, dan visibilitas ke dalam pemanfaatan presisi campuran.

Pelajari selengkapnya

Alat bawaan untuk interaktivitas dan pemantauan

Amazon SageMaker dengan MLflow

Manfaatkan MLflow dengan pelatihan SageMaker untuk menangkap parameter, konfigurasi, dan hasil input, yang memungkinkan Anda mengidentifikasi model beperforma terbaik dengan cepat untuk kasus penggunaan Anda. UI MLflow memungkinkan Anda menganalisis upaya pelatihan model dan mendaftarkan model kandidat dengan mudah untuk produksi dengan satu kali klik.

Pelajari selengkapnya

Amazon SageMaker dengan TensorBoard

Amazon SageMaker dengan TensorBoard membantu Anda menghemat waktu pengembangan dengan memvisualisasikan arsitektur model untuk mengidentifikasi dan memulihkan masalah konvergensi, seperti kehilangan validasi yang tidak konvergen atau menghilangnya gradien.

Pelajari selengkapnya

Sumber daya

Blog

Apa yang baru

Hasil tidak ditemukan

1 …

…

Mulai SageMaker Model Training

Documentation

Memulai panduan developer SageMaker

Baca panduan

Workshop

Pelajari cara menggunakan SageMaker untuk membangun, melatih, dan melakukan deployment model ML

Baca selengkapnya tentang lokakarya

Amazon SageMaker Model Training

Apa itu Amazon SageMaker Model Training?

Cara kerja

Keuntungan pelatihan hemat biaya

Infrastruktur terkelola untuk pelatihan berskala besar dan hemat biaya

Pelatihan terdistribusi performa tinggi

Alat bawaan untuk akurasi tertinggi dan biaya terendah

Alat bawaan untuk interaktivitas dan pemantauan

Latih model dalam skala besar

Infrastruktur terkelola penuh dalam skala besar

Amazon SageMaker Hyperpod

Pelatihan terdistribusi performa tinggi

Alat bawaan untuk akurasi tertinggi dan biaya terendah

Penyetelan Model Otomatis

Pelatihan Spot Terkelola

Debugging

Profiler

Alat bawaan untuk interaktivitas dan pemantauan

Amazon SageMaker dengan MLflow

Amazon SageMaker dengan TensorBoard

Sumber daya

Latih dengan penambahan paralel model dan Hugging Face di SageMaker

Unduh sampel kode dari repositori GitHub

Lihat tolok ukur terbaru kami untuk model ML terpopuler

Pilih sumber data terbaik untuk tugas pelatihan SageMaker Anda

Skalakan pelatihan dengan paralelisme data serpihan di SageMaker

Percepat pelatihan dengan kolam hangat pelatihan

Tingkatkan performa harga menggunakan klaster heterogen SageMaker

Apa yang baru

Mulai SageMaker Model Training

Memulai panduan developer SageMaker

Pelajari cara menggunakan SageMaker untuk membangun, melatih, dan melakukan deployment model ML

Mengakhiri Dukungan untuk Internet Explorer