Amazon SageMaker HyperPod

大規模な分散型トレーニングに特化したインフラストラクチャにより、基礎モデルのトレーニング時間を最大 40% 短縮

SageMaker HyperPod とは?

Amazon SageMaker HyperPod は、トレーニング基盤モデル (FM) 用の機械学習 (ML) インフラストラクチャの構築と最適化に伴う差別化につながらない手間のかかる作業を排除し、トレーニング時間を最大 40% 削減します。SageMaker HyperPod は、SageMaker の分散型トレーニングライブラリで事前構成されています。これにより、トレーニングワークロードを数千のアクセラレーターに自動的に分散できるため、ワークロードを並行で処理してモデルパフォーマンスを向上させることができます。また、SageMaker HyperPod は、チェックポイントを定期的に保存することで、お客様が FM トレーニングを中断することなく継続できるようにしています。トレーニング中にハードウェア障害が発生すると、SageMaker HyperPod によって自動的に障害が検出され、障害のあるインスタンスが修復または交換され、最後に保存したチェックポイントからトレーニングが再開されます。これにより、このプロセスを手動で管理する必要がなくなり、中断することなく分散された環境で数週間または数か月間トレーニングできるようになります。

SageMaker ハイパーポッドのメリット

大規模なトレーニングクラスター向けに合理化された分散型トレーニング

Amazon SageMaker HyperPod では、Amazon SageMaker 分散トレーニングライブラリが事前設定されているため、モデルとトレーニングデータセットを AWS クラスターインスタンス全体で自動的に分割して、トレーニングワークロードを効率的にスケールできます。

クラスターのコンピューティング、メモリ、ネットワークリソースの使用率を最適化する

Amazon SageMaker 分散トレーニングライブラリは、データ並列処理とモデル並列処理という 2 つの手法を通じて、AWS のネットワークインフラストラクチャとクラスタートポロジ向けにトレーニングジョブを最適化します。モデル並列処理は、大きすぎて単一の GPU に適さないモデルを小さな部分に分割してから、複数の GPU に分散してトレーニングします。データ並列処理では、トレーニングの速度を上げるために、大規模なデータセットを分割して同時にトレーニングします。

中断をなくす、回復力のあるトレーニング環境

SageMaker HyperPod は、障害を自動的に検出および診断し、その障害から回復することで、より高い回復力を備えたトレーニング環境を実現します。これにより、お客様は中断することなく FM を数か月間継続してトレーニングできます。

ワークロードのスケジューリングとオーケストレーション

SageMaker HyperPod ユーザーインターフェイスは、Slurm を使用して高度にカスタマイズできます。必要なフレームワークやツールを選択してインストールできます。すべてのクラスターは、選択したインスタンスタイプとカウントでプロビジョニングされ、ワークロード全体で使用できるように保持されます。

最適化された分散型トレーニングライブラリ

SageMaker HyperPod には、SageMaker の配布ライブラリがあらかじめ設定されています。わずか数行のコードで、トレーニングスクリプトでデータの並列処理を有効にできます。SageMaker HyperPod では、モデルとトレーニングデータセットを AWS GPU インスタンス間で自動的に分割することで、分散トレーニングをより迅速に実行できます。

詳細 »

クラスタのヘルスチェックと自動修復

トレーニングワークロード中にインスタンスに不具合が生じた場合、SageMaker HyperPod は自動的に障害のあるノードを検出し、正常なノードと交換します。障害のあるハードウェアを検出するために、SageMaker HyperPod は定期的に GPU とネットワークの整合性について一連のヘルスチェックを実行します。

モデルのパフォーマンスをデバッグして改善する

SageMaker HyperPod の専用の ML ツールを使用すると、トレーニングのパフォーマンスを改善できます。Amazon SageMaker with TensorBoard を使用すると、モデルアーキテクチャを可視化して、検証損失、収束しない、勾配消失などの収束の問題を特定して修正できるため、開発時間を節約できます。

詳細はこちら »