데이터 레이블 지정이란 무엇입니까?

기계 학습에서 데이터 레이블링은 원시 데이터(이미지, 텍스트 파일, 동영상 등)를 식별하고, 의미 있고 정보성이 있는 한 개 이상의 레이블을 추가하여 컨텍스트를 제공하는 과정으로, 기계 학습 모델이 이를 통해 학습할 수 있습니다. 예를 들어 레이블은 사진에 새나 자동차가 있는지 여부, 음성 녹음에 어떤 단어가 언급되었는지 또는 엑스레이에 종양이 있는지를 나타낼 수도 있습니다. 데이터 레이블링은 컴퓨터 비전, 자연어 처리, 음성 인식 등과 같은 다양한 사용 사례에 필수적입니다.

데이터 레이블링은 어떻게 작동하나요?

오늘날 대부분의 실용적인 기계 학습 모델은 하나의 입력을 하나의 출력에 매핑하는 알고리즘을 적용하는 지도 학습을 활용합니다. 지도 학습이 제대로 작동하려면 모델이 학습하여 올바른 결정을 내릴 수 있는 레이블이 지정된 데이터 세트가 필요합니다. 데이터 레이블링은 일반적으로 레이블이 지정되지 않은 특정 데이터에 대해 인간에게 판단을 내리도록 요청하는 것으로 시작됩니다. 예를 들어 레이블러는 데이터 세트의 모든 이미지에 '사진에 새가 포함되어 있음'이 참인 태그를 지정하도록 요청받을 수 있습니다. 태그 지정은 간단한 예/아니오처럼 대략적으로 하거나 새와 관련된 이미지의 특정 픽셀을 식별하는 것처럼 세분화할 수 있습니다. 기계 학습 모델은 '모델 훈련'이라는 프로세스를 통해 사람이 제공한 레이블을 사용하여 기본 패턴을 학습합니다. 그 결과 새 데이터를 예측하는 데 사용할 수 있는 훈련된 모델이 생성됩니다.


기계 학습에서는 적절한 레이블이 지정된 데이터 세트를 특정 모델을 훈련하고 평가하기 위한 객관적인 표준으로 사용하는 것을 흔히 '실측 정보'라고 합니다. 훈련된 모델의 정확도는 실측 정보의 정확성에 따라 달라지므로 매우 정확한 데이터 레이블링을 보장하기 위해 시간과 리소스를 투자하는 것이 필수적입니다.

일반적인 데이터 레이블링 유형에는 어떤 것이 있나요?

컴퓨터 비전 

컴퓨터 비전 시스템을 구축할 때는 먼저 이미지, 픽셀 또는 주요 포인트에 레이블을 지정하거나 디지털 이미지를 완전히 둘러싸는 테두리(경계 상자라고도 함)를 만들어 훈련 데이터 세트를 생성해야 합니다. 예를 들어 품질 유형(예: 제품 이미지와 라이프스타일 이미지) 또는 콘텐츠(이미지 자체에 실제로 있는 것)별로 이미지를 분류하거나 픽셀 수준에서 이미지를 분할할 수 있습니다. 그런 다음 이 훈련 데이터를 사용하여 이미지를 자동으로 분류하고, 물체의 위치를 감지하고, 영상의 요점을 식별하거나, 영상을 분할하는 데 사용할 수 있는 컴퓨터 비전 모델을 구축할 수 있습니다.

자연어 처리

자연어 처리를 위해서는 먼저 텍스트의 중요한 부분을 수동으로 식별하거나 텍스트에 특정 레이블을 태그하여 훈련 데이터 세트를 생성해야 합니다. 예를 들어, 텍스트 안내문의 감정이나 의도를 파악하고, 음성에서 품사를 식별하고, 장소 및 사람과 같은 고유 명사를 분류하고, 이미지, PDF 또는 기타 파일에서 텍스트를 식별할 수 있습니다. 이렇게 하기 위해 텍스트 주위에 경계 상자를 그린 다음 훈련 데이터 세트의 텍스트를 수동으로 기록할 수 있습니다. 자연어 처리 모델은 감정 분석, 엔터티 이름 인식, 광학 문자 인식에 사용됩니다.

오디오 처리

오디오 처리는 음성, 야생동물 소리(짖는 소리, 휘파람 소리), 건물 소리(유리 깨짐, 스캔, 알람) 등 모든 종류의 소리를 정형화된 형식으로 변환하여 기계 학습에 사용할 수 있도록 합니다. 오디오를 처리하려면 먼저 수동으로 텍스트로 변환해야 하는 경우가 많습니다. 여기에서 태그를 추가하고 오디오를 분류하여 오디오에 대한 더 자세한 정보를 찾을 수 있습니다. 이렇게 분류된 오디오는 훈련 데이터 세트가 됩니다.

데이터 레이블링의 모범 사례에는 어떤 것이 있나요?

데이터 레이블링의 효율성과 정확성을 개선하기 위한 많은 기술이 있습니다. 이러한 기술 중 몇 가지는 다음과 같습니다.

  • 직관적이고 간소화된 작업 인터페이스로 레이블링 작업자의 인지 부하 및 컨텍스트 전환을 최소화할 수 있습니다.
  • 레이블러 합의를 통해 개별 주석자의 오류/편향을 상쇄할 수 있습니다. 레이블러 합의에는 각 데이터 세트 객체를 여러 주석자에게 보낸 다음 응답('주석'이라고 함)을 단일 레이블로 통합하는 작업이 포함됩니다.
  • 레이블 감사를 통해 레이블의 정확성을 확인하고 필요에 따라 레이블을 업데이트합니다.
  • 능동적 학습은 기계 학습을 사용하여 사람이 레이블링해야 할 가장 유용한 데이터를 식별함으로써 데이터 레이블링을 보다 효율적으로 만드는 것입니다.

데이터 레이블링을 효율적으로 수행하려면 어떻게 해야 하나요?

성공적인 기계 학습 모델은 품질이 뛰어나고 방대한 학습 데이터를 기반으로 구축됩니다. 하지만 이러한 모델을 구축하는 데 필요한 교육 데이터를 만드는 프로세스는 시간 소모적이고 복잡하며 큰 비용을 들어가는 경우가 대부분입니다. 현재 생성되는 모델 대부분은 모델이 올바른 의사 결정을 내리는 방법을 배울 수 있도록 사람이 수동으로 데이터 레이블을 지정해야 합니다. 이러한 문제를 해결하기 위해 기계 학습 모델을 사용하여 데이터에 자동으로 레이블을 지정하면 레이블링의 효율성을 높일 수 있습니다.

이 프로세스에서는 먼저 사람이 레이블을 지정한 원시 데이터의 하위 집합을 기반으로 데이터 레이블링을 위한 기계 학습 모델을 훈련합니다. 레이블링 모델이 지금까지 학습한 내용을 바탕으로 결과에 대한 신뢰도가 높은 경우, 자동으로 원시 데이터에 레이블을 적용합니다. 레이블링 모델은 결과에 대한 신뢰도가 낮은 경우, 사람에게 데이터를 전달하여 레이블을 지정하도록 합니다. 그런 다음 사람이 생성한 레이블을 레이블링 모델에 다시 제공하여 학습하고 다음 원시 데이터 세트에 자동으로 레이블을 지정하는 기능을 개선합니다. 시간이 지나면서 모델은 점점 더 많은 데이터를 자동으로 레이블링할 수 있고 훈련 데이터 세트를 생성하는 속도도 크게 빨라집니다.

AWS는 데이터 레이블링 요구 사항을 어떻게 지원하나요?

Amazon SageMaker Ground Truth는 훈련용 데이터 세트를 생성하는 데 필요한 시간과 수고를 크게 줄여줍니다. SageMaker Ground Truth는 공공 및 민간 레이블링 작업자에게 액세스를 제공하며, 일반적인 레이블링 작업에 대한 내장 워크플로와 인터페이스를 제공합니다. SageMaker Ground Truth를 사용하면 간편하게 시작할 수 있습니다. 시작하기 자습서를 사용하면 몇 분 만에 첫 번째 레이블링 작업을 생성할 수 있습니다.

지금 계정을 생성하여 AWS에서 데이터 레이블링을 시작하세요.

AWS의 다음 단계

무료 계정 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

가입 
콘솔에서 구축 시작

AWS Management Console에서 구축을 시작하세요.

로그인