특성 추출이란 무엇인가요?

모델 특성은 기계 학습(ML) 모델이 예측을 수행하기 위해 훈련 및 추론 중에 사용하는 입력입니다. ML 모델의 정확도는 특성의 정확한 설정 및 구성을 기반으로 합니다. 예를 들어 음악 재생 목록을 추천하는 ML 애플리케이션에서, 특성에는 노래 등급, 이전에 들은 노래, 노래 재생 시간 등이 포함될 수 있습니다. 특성을 생성하는 데는 상당한 추출 활동이 필요합니다. 특성 추출은 사용자가 훈련 및 예측을 위해 특성을 사용할 수 있도록 가격표, 제품 설명, 판매량과 같은 원시 데이터에서 변수를 추출하고 변환하는 과정을 포함합니다. 특성 추출에 필요한 단계에는 데이터 추출 및 정리와 특성 생성 및 저장이 포함됩니다.

특성 추출은 어떤 점에서 어렵나요?

특성 추출에는 데이터 분석, 비즈니스 분야에 대한 지식, 그리고 어느 정도의 직관력이 모두 필요하므로 어렵습니다. 특성을 생성할 때는 사용 가능한 데이터를 바로 분석하려고 하기 쉽지만, 전문가와 대화하고, 브레인스토밍하고, 서드 파티 조사를 실시하여 어떤 데이터가 필요한지 고려하는 것부터 시작해야 합니다. 이 같은 과정을 따르지 않으면 중요한 예측 변수를 놓칠 수 있습니다.

테이블 추출

데이터 수집은 ML에 필요한 모든 데이터를 모으는 프로세스입니다. 데이터는 노트북, 데이터 웨어하우스, 클라우드, 애플리케이션 내부 및 디바이스 등 여러 데이터 소스에서 산재해 있기 때문에 데이터 수집 과정이 지루할 수 있습니다. 다양한 데이터 소스에 연결하는 방법을 찾기가 어려울 수 있습니다. 데이터 볼륨도 기하급수적으로 증가하고 있으므로 검색할 데이터가 많습니다. 또한 데이터는 소스에 따라 매우 다양한 형식과 유형을 갖습니다. 예를 들어 동영상 데이터와 테이블 형식 데이터는 함께 사용하기가 어렵습니다.

특성 생성

데이터 레이블링은 원시 데이터(이미지, 텍스트 파일, 동영상 등)를 식별하고, 의미 있고 알기 쉬운 한 개 이상의 레이블을 추가하여 컨텍스트를 제공하는 과정으로, ML 모델이 이를 통해 학습할 수 있습니다. 예를 들어, 레이블은 사진에 새나 자동차가 있는지 여부, 음성 녹음에 어떤 단어가 언급되었는지 또는 엑스레이에 비정상이 발견되었는지를 나타낼 수도 있습니다. 데이터 레이블링은 컴퓨터 비전, 자연어 처리, 음성 인식 등과 같은 다양한 사용 사례에 필수적입니다.

특성 스토리지

데이터를 정리하고 레이블 지정한 후, ML 팀은 데이터가 올바르고 ML에 사용할 준비가 되었는지 확인하기 위해 데이터를 자주 검토합니다. 히스토그램, 산점도, 상자 수염 그림, 선 그래프, 막대 차트와 같은 시각화는 모두 데이터가 올바른지 확인하는 데 유용한 도구입니다. 또한 시각화는 데이터 과학 팀이 탐색적 데이터 분석을 완료하는 데 도움이 됩니다. 이 프로세스는 시각화를 사용하여 패턴을 발견하거나, 이상치를 식별하거나, 가설을 테스트하거나, 가정을 확인합니다. 탐색적 데이터 분석에는 공식 모델링이 필요하지 않습니다. 대신 데이터 과학 팀은 시각화를 사용하여 데이터를 해독할 수 있습니다. 

AWS는 특성 추출을 어떻게 지원할 수 있나요?

Amazon SageMaker Data Wrangler는 단일 시각적 인터페이스를 사용하여 특성 추출 프로세스를 간소화할 수 있습니다. SageMaker Data Wrangler의 데이터 선택 도구를 사용하면 다양한 데이터 소스에서 원하는 원시 데이터를 선택하고 한 번의 클릭으로 가져올 수 있습니다. SageMaker Data Wrangler에는 300개가 넘는 기본 제공 데이터 변환이 포함되어 있어서, 코드를 작성하지 않고도 빠르게 특성을 정규화하고 변환하며 결합할 수 있습니다. 데이터가 준비되고 나면 Amazon SageMaker Pipelines에서 완벽하게 자동화된 ML 워크플로를 구축하고 Amazon SageMaker 특성 저장소에서 재사용하도록 저장할 수 있습니다. SageMaker Feature Store는 특성을 저장하고 액세스할 수 있는 특수 목적용 리포지토리이므로, 팀들이 이름을 지정하고 구성하고 재사용하기가 더 쉽습니다. SageMaker Feature Store는 훈련 및 실시간 추론 중에 특성에 대한 통합 저장소를 제공하며, 추가 코드를 작성하거나 특성을 일관되게 유지하기 위해 수동 프로세스를 생성할 필요가 없습니다.

AWS의 다음 단계

제품 관련 추가 리소스 확인
특성 추출에 대한 AWS Support 
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

가입 
콘솔에서 구축 시작

AWS Management Console에서 구축을 시작하세요.

로그인