SageMaker HyperPod とは?
Amazon SageMaker HyperPod は、トレーニング基盤モデル (FM) 用の機械学習 (ML) インフラストラクチャの構築と最適化に伴う差別化につながらない手間のかかる作業を排除し、トレーニング時間を最大 40% 削減します。SageMaker HyperPod は、SageMaker の分散型トレーニングライブラリで事前構成されています。これにより、トレーニングワークロードを数千のアクセラレーターに自動的に分散できるため、ワークロードを並行で処理してモデルパフォーマンスを向上させることができます。また、SageMaker HyperPod は、チェックポイントを定期的に保存することで、お客様が FM トレーニングを中断することなく継続できるようにしています。トレーニング中にハードウェア障害が発生すると、SageMaker HyperPod によって自動的に障害が検出され、障害のあるインスタンスが修復または交換され、最後に保存したチェックポイントからトレーニングが再開されます。これにより、このプロセスを手動で管理する必要がなくなり、中断することなく分散された環境で数週間または数か月間トレーニングできるようになります。
SageMaker ハイパーポッドのメリット
ワークロードのスケジューリングとオーケストレーション
最適化された分散型トレーニングライブラリ
SageMaker HyperPod には、SageMaker の配布ライブラリがあらかじめ設定されています。わずか数行のコードで、トレーニングスクリプトでデータの並列処理を有効にできます。SageMaker HyperPod では、モデルとトレーニングデータセットを AWS GPU インスタンス間で自動的に分割することで、分散トレーニングをより迅速に実行できます。
詳細 »
クラスタのヘルスチェックと自動修復
トレーニングワークロード中にインスタンスに不具合が生じた場合、SageMaker HyperPod は自動的に障害のあるノードを検出し、正常なノードと交換します。障害のあるハードウェアを検出するために、SageMaker HyperPod は定期的に GPU とネットワークの整合性について一連のヘルスチェックを実行します。
モデルのパフォーマンスをデバッグして改善する
SageMaker HyperPod の専用の ML ツールを使用すると、トレーニングのパフォーマンスを改善できます。Amazon SageMaker with TensorBoard を使用すると、モデルアーキテクチャを可視化して、検証損失、収束しない、勾配消失などの収束の問題を特定して修正できるため、開発時間を節約できます。