특성 추출이란 무엇인가요?
모델 특성은 기계 학습(ML) 모델이 예측을 수행하기 위해 훈련 및 추론 중에 사용하는 입력입니다. ML 모델의 정확도는 특성의 정확한 설정 및 구성을 기반으로 합니다. 예를 들어 음악 재생 목록을 추천하는 ML 애플리케이션에서, 특성에는 노래 등급, 이전에 들은 노래, 노래 재생 시간 등이 포함될 수 있습니다. 특성을 생성하는 데는 상당한 추출 활동이 필요합니다. 특성 추출은 사용자가 훈련 및 예측을 위해 특성을 사용할 수 있도록 가격표, 제품 설명, 판매량과 같은 원시 데이터에서 변수를 추출하고 변환하는 과정을 포함합니다. 특성 추출에 필요한 단계에는 데이터 추출 및 정리와 특성 생성 및 저장이 포함됩니다.
특성 추출은 어떤 점에서 어렵나요?
특성 추출에는 데이터 분석, 비즈니스 분야에 대한 지식, 그리고 어느 정도의 직관력이 모두 필요하므로 어렵습니다. 특성을 생성할 때는 사용 가능한 데이터를 바로 분석하려고 하기 쉽지만, 전문가와 대화하고, 브레인스토밍하고, 서드 파티 조사를 실시하여 어떤 데이터가 필요한지 고려하는 것부터 시작해야 합니다. 이 같은 과정을 따르지 않으면 중요한 예측 변수를 놓칠 수 있습니다.
테이블 추출
특성 생성
특성 스토리지
AWS는 특성 추출을 어떻게 지원할 수 있나요?
Amazon SageMaker Data Wrangler는 단일 시각적 인터페이스를 사용하여 특성 추출 프로세스를 간소화할 수 있습니다. SageMaker Data Wrangler의 데이터 선택 도구를 사용하면 다양한 데이터 소스에서 원하는 원시 데이터를 선택하고 한 번의 클릭으로 가져올 수 있습니다. SageMaker Data Wrangler에는 300개가 넘는 기본 제공 데이터 변환이 포함되어 있어서, 코드를 작성하지 않고도 빠르게 특성을 정규화하고 변환하며 결합할 수 있습니다. 데이터가 준비되고 나면 Amazon SageMaker Pipelines에서 완벽하게 자동화된 ML 워크플로를 구축하고 Amazon SageMaker 특성 저장소에서 재사용하도록 저장할 수 있습니다. SageMaker Feature Store는 특성을 저장하고 액세스할 수 있는 특수 목적용 리포지토리이므로, 팀들이 이름을 지정하고 구성하고 재사용하기가 더 쉽습니다. SageMaker Feature Store는 훈련 및 실시간 추론 중에 특성에 대한 통합 저장소를 제공하며, 추가 코드를 작성하거나 특성을 일관되게 유지하기 위해 수동 프로세스를 생성할 필요가 없습니다.