特徴量エンジニアリングとは何ですか?
モデルの特徴量とは、機械学習 (ML) モデルが予測を行うためにトレーニングおよび推論中に使用する入力値です。機械学習モデルの精度は、特徴の正確なセットと構成に依存します。例えば、音楽プレイリストを推奨する機械学習アプリケーションでは、特徴には、曲の評価、以前に聴いた曲、曲を聴いている時間が含まれる場合があります。特徴を作成するには、多大なエンジニアリング作業が必要になる場合があります。特徴量エンジニアリングでは、料金表、製品の説明、販売量などの生データから変数を抽出して変換し、トレーニングや予測に特徴を使用できるようにします。特徴量エンジニアリングのために必要なステップには、データの抽出とクレンジング、そして特徴の作成と保存が含まれます。
特徴量エンジニアリングにはどのような課題がありますか?
特徴量エンジニアリングは、データ分析、ビジネスドメインの知識、ある程度の直感という要素の組み合わせが必要となるため、困難です。特徴量を作成するときは、すぐに利用可能なデータに手を伸ばしたくなりますが、多くの場合、エキスパートと話し、ブレーンストーミングを行い、サードパーティーの調査を行って、どのデータが必要かを検討することから始めるべきです。このステップを踏まないと、重要な予測変数を見逃す可能性があります。
データ抽出
特徴量の作成
特徴量ストレージ
AWS は特徴量エンジニアリングをどのようにサポートしますか?
Amazon SageMaker Data Wrangler を使用すると、単一のビジュアルインターフェイスを使用して特徴量エンジニアリングプロセスを簡素化できます。SageMaker Data Wrangler のデータ選択ツールを使用すると、さまざまなデータソースから必要な生データを選択し、シングルクリックでインポートできます。SageMaker Data Wrangler には 300 を超える組み込みのデータ変換が含まれているため、コードを記述しなくても、特徴量をすばやく正規化、変換、結合できます。データの準備ができたら、Amazon SageMaker Pipelines を使用して完全に自動化された機械学習ワークフローを構築し、Amazon SageMaker Feature Store で再利用できるように保存できます。SageMaker Feature Store は、特徴量を保存してアクセスできる専用のリポジトリであるため、チーム間で特徴量に名前を付けたり、整理したり、再利用したりする作業を簡単に行えます。トレーニング中およびリアルタイム推論中、SageMaker Feature Store で作成される統一の特徴量ストアを利用できます。特徴量の一貫性を保つために、追加のコードを記述したり手動プロセスを作成したりする必要はありません。