데이터 증강이란 무엇인가요?
데이터 증강은 주로 새로운 기계 학습(ML) 모델을 훈련할 목적으로, 기존 데이터에서 새로운 데이터를 인위적으로 생성하는 프로세스입니다. ML 모델은 초기 훈련 시에는 크고 다양한 데이터 세트를 필요로 하지만, 데이터 사일로, 관련 규정 및 기타 제한으로 인해 충분한 다양성을 갖춘 실제 데이터 세트를 소싱하기가 어려울 수 있습니다. 데이터 증강은 원본 데이터를 약간 변경하여 데이터 세트를 인위적으로 늘립니다. 이제 생성형 인공 지능(AI) 솔루션은 다양한 산업에서 고품질의 빠른 데이터 증강을 위해 사용되고 있습니다.
데이터 증강이 중요한 이유는 무엇인가요?
딥 러닝 모델이 다양한 컨텍스트에서 정확한 예측을 개발하려면 다양하고 방대한 데이터가 필요합니다. 데이터 증강은 모델이 예측의 정확도를 개선하는 데 도움이 될 수 있는 데이터 변형 생성을 보완합니다. 증강 데이터는 훈련에 매우 중요합니다.
다음은 데이터 증강의 몇 가지 이점입니다.
모델 성능 향상
데이터 증강 기법은 기존 데이터의 다양한 변형을 생성하여 데이터 세트를 강화하는 데 도움이 됩니다. 이렇게 하면 훈련을 위한 더 큰 데이터 세트가 제공되며, 모델이 더 다양한 특성을 접할 수 있게 됩니다. 증강 데이터는 모델이 새로운 데이터로 보다 효과적으로 일반화하도록 하고 실제 환경에서 전반적인 성능을 개선하는 데 도움이 됩니다.
데이터 의존성 감소
훈련을 위해 대량의 데이터를 수집하고 준비하려면 비용과 시간이 많이 소요될 수 있습니다. 데이터 증강 기법은 소규모 데이터 세트의 효율성을 높여 훈련 환경에서 대규모 데이터 세트에 대한 의존도를 크게 줄입니다. 더 작은 데이터 세트를 사용하여 합성 데이터 포인트로 데이터 세트를 보완할 수 있습니다.
훈련 데이터의 과적합 완화
데이터 증강은 ML 모델 훈련 시에 과적합을 방지하는 데 도움이 됩니다. 과적합은 모델이 훈련 데이터에 대한 예측을 정확하게 제공할 수 있지만, 새로운 데이터를 분석하는 데 어려움을 겪는 바람직하지 않은 ML 동작입니다. 모델이 한정된 데이터 세트로만 훈련하면, 과적합되어 특정 데이터 유형에만 연관된 예측을 제공할 수 있습니다. 이와 대조적으로, 데이터 증강은 모델 훈련을 위한 훨씬 더 크고 포괄적인 데이터 세트를 제공합니다. 이는 훈련 데이터 세트를 심층 신경망에서 고유하게 보이도록 하여, 특정 특성만으로 작동하는 방법을 학습하지 않게 합니다.
데이터 프라이버시 개선
민감한 데이터로 딥 러닝 모델을 훈련해야 하는 경우, 기존 데이터에 증강 기법을 적용하여 합성 데이터를 생성할 수 있습니다. 이 증강 데이터는 입력 데이터의 통계적 속성과 가중치를 유지하면서 원본에 대한 액세스를 보호하고 제한합니다.
데이터 증강의 사용 사례는 어떤 것들이 있나요?
데이터 증강은 다양한 산업에서 다양하게 응용되어, 여러 부문에서 ML 모델의 성능을 개선합니다.
의료 서비스
데이터 증강은 이미지를 기반으로 질병을 감지, 인식 및 진단하는 진단 모델을 개선하는 데 도움이 되기 때문에 의료 영상 분야에도 유용하게 활용됩니다. 특히 소스 데이터 변형이 부족한 희귀 질환의 경우, 증강 영상을 생성하면 모델에 더 많은 훈련 데이터를 제공할 수 있습니다. 합성 환자 데이터의 생산 및 사용은 모든 데이터 프라이버시 요건을 따르면서 의학 연구를 발전시킵니다.
금융
증강은 가상 사기 사례를 생성하여 모델이 실제 시나리오에서 사기를 더 정확하게 탐지하도록 훈련하는 데 도움을 줍니다. 대규모 훈련 데이터 풀은 위험 평가 시나리오에 도움이 되므로, 위험을 정확하게 평가하고 미래 추세를 예측할 수 있는 딥 러닝 모델의 잠재력이 향상됩니다.
제조
제조업에서는 ML 모델을 사용하여 제품의 시각적 결함을 식별합니다. 증강 이미지로 실제 데이터를 보완함으로써 모델이 이미지 인식 능력을 개선하고 잠재적 결함을 찾을 수 있습니다. 또한 이 전략은 손상되거나 결함이 있는 제품이 공장 및 생산 라인으로 배송될 가능성을 줄여줍니다.
소매
소매 환경에서는 모델을 사용하여 제품을 식별하고 시각적 요소를 기반으로 카테고리에 할당합니다. 데이터 증강은 제품 이미지의 합성 데이터 변형을 생성하여 조명 조건, 이미지 배경 및 제품 각도 측면에서 더 많은 변동이 적용된 훈련 세트를 만들 수 있습니다.
데이터 증강은 어떻게 작동하나요?
데이터 증강은 기존 데이터를 변환, 편집 또는 수정하여 변형을 생성합니다. 다음은 이 프로세스의 간략한 개요입니다.
데이터 세트 탐색
데이터 증강의 첫 번째 단계는 기존 데이터 세트를 분석하고 그 특성을 이해하는 것입니다. 입력 이미지의 크기, 데이터 분포 또는 텍스트 구조와 같은 특성은 모두 증강을 위한 추가 컨텍스트를 제공합니다.
기본 데이터 유형과 원하는 결과에 따라, 다양한 데이터 증강 기법을 선택할 수 있습니다. 예를 들어 많은 수의 이미지로 데이터 세트를 확대하려면 이미지에 노이즈를 추가하거나, 규모를 조정하거나, 이미지를 자를 수 있습니다. 또는 동의어나 의역 발췌문을 대체함으로써, 자연어 처리(NLP)를 위해 텍스트 데이터 세트를 증강할 수 있습니다.
기존 데이터의 증강
원하는 목표에 가장 적합한 데이터 증강 기법을 선택한 후 다양한 변환을 적용합니다. 선택한 증강 방법을 사용하여 데이터 세트의 데이터 포인트 또는 이미지 샘플을 변환하고 다양한 새 증강 샘플을 제공합니다.
증강 프로세스 중에는 데이터 일관성을 유지하기 위해 동일한 레이블링 규칙을 적용하여 원본 데이터와 동일한 레이블이 합성 데이터에 포함되도록 합니다.
일반적으로 합성 이미지를 검토하여 변환의 성공 여부를 확인합니다. 사람이 수행하는 이 추가 단계는 더 높은 데이터 품질을 유지하는 데 도움이 됩니다.
데이터 양식 통합
다음으로, 새로운 증강 데이터를 원본 데이터와 결합하여 ML 모델을 위한 더 큰 훈련 데이터 세트를 생성합니다. 모델을 훈련할 때는 두 가지 유형의 데이터로 구성된 이 복합 데이터 세트를 사용합니다.
합성 데이터 증강을 통해 생성되는 새 데이터 포인트는 원래 입력 데이터와 동일한 편향을 갖는다는 점을 유의해야 합니다. 새 데이터로 편향이 전달되는 것을 방지하려면 데이터 증강 프로세스를 시작하기 전에 소스 데이터의 편향을 해결하세요.
데이터 증강 기법에는 어떤 것들이 있나요?
데이터 증강 기법은 다양한 데이터 유형과 비즈니스 상황에 따라 달라집니다.
컴퓨터 비전
데이터 증강은 컴퓨터 비전 작업의 핵심 기술입니다. 다양한 데이터 표현을 생성하고 훈련 데이터 세트의 클래스 불균형을 해결하는 데 도움이 됩니다.
컴퓨터 비전 분야에서 증강 기술은 위치 증강을 통해 가장 먼저 사용되었습니다. 이 전략에서는 입력 이미지를 자르거나 뒤집거나 회전하여 증강 이미지를 만듭니다. 자르는 경우, 이미지 크기가 조정되거나 원본 이미지의 일부가 잘려서 새 이미지가 만들어집니다. 회전, 뒤집기 및 크기 조정 변환에서는 새 이미지를 제공할 일정 확률로 원본을 무작위로 변경합니다.
컴퓨터 비전에서 증강의 또 다른 용도는 색상 증강입니다. 이 전략은 밝기, 대비 정도 또는 채도와 같은 훈련 이미지의 기본 요소를 조정합니다. 이러한 일반적인 이미지 변환은 색조, 어두운 영역과 밝은 영역의 밸런스, 이미지의 가장 어두운 영역과 가장 밝은 영역 간의 구분을 변경하여 증강 이미지를 만듭니다.
오디오 데이터 증강
음성 녹음과 같은 오디오 파일 분야에서도 데이터 증강이 많이 사용됩니다. 일반적인 오디오 변환 유형으로는 일부 오디오에 무작위 또는 가우시안 노이즈를 주입하거나, 파트를 빠르게 전달하거나, 파트의 속도를 고정된 속도로 변경하거나, 피치를 변경하는 것 등이 있습니다.
텍스트 데이터 증강
텍스트 증강은 NLP 및 ML의 다른 텍스트 관련 부문을 위한 필수 데이터 증강 기법입니다. 텍스트 데이터의 변환 유형으로는 문장 섞기, 단어 위치 변경, 단어를 비슷한 동의어로 바꾸기, 무작위 단어 삽입, 무작위 단어 삭제 등이 있습니다.
뉴럴 스타일 변환
뉴럴 스타일 변환은 이미지를 더 작은 부분으로 분해하는 발전된 형태의 데이터 증강 기법입니다. 이미지의 스타일과 컨텍스트를 구분하는 일련의 컨볼루션 레이어를 사용하여 단일 레이어에서 많은 이미지를 생성합니다.
대립 훈련
픽셀 수준의 변화는 ML 모델에 문제를 야기합니다. 일부 샘플은 이미지 상위에 감지할 수 없는 노이즈 레이어를 포함하여 하위에 있는 이미지를 인식하는 모델의 능력을 테스트합니다. 이 전략은 실제 세상에서의 잠재적 무단 액세스에 초점을 맞춘 예방적 형태의 데이터 증강 기법입니다.
데이터 증강에서 생성형 AI는 어떤 역할을 하나요?
생성형 AI는 합성 데이터의 생산을 지원하기 때문에 데이터 증강에 필수적입니다. 데이터 다양성을 높이고 실제 데이터 생성을 간소화하며 데이터 프라이버시를 보호하는 데 도움이 됩니다.
생성형 대립 네트워크
생성형 대립 네트워크(GAN)는 서로 반대로 작동하는 두 가지 중앙 신경망으로 구성된 프레임워크입니다. 생성자가 합성 데이터 샘플을 생성하면, 판별자가 실제 데이터와 합성 샘플을 구분합니다.
시간이 지남에 따라 GAN은 판별자를 속이는 데 집중하여 생성자의 출력을 지속적으로 개선합니다. 판별자를 속일 수 있는 데이터는 고품질 합성 데이터로 간주되므로, 원래 데이터 분포에 가까운 매우 신뢰성 높은 표본으로 데이터를 보강할 수 있습니다.
변이형 오토인코더
변이형 오토인코더(VAE)는 핵심 데이터의 표본 크기를 늘리고 시간이 많이 걸리는 데이터 수집의 필요성을 줄이는 데 도움이 되는 신경망의 일종입니다. VAE에는 디코더와 인코더라는 두 개의 연결된 네트워크가 있습니다. 인코더는 샘플 이미지를 가져와 중간 표현으로 변환합니다. 디코더는 해당 표현을 가져와 초기 샘플에 대한 이해를 기반으로 유사한 이미지를 재생성합니다. VAE는 샘플 데이터와 매우 유사한 데이터를 생성할 수 있어, 원래의 데이터 분포를 유지하면서 다양성을 더할 수 있다는 점에서 유용합니다.
AWS는 데이터 증강 요구 사항을 어떻게 지원하나요?
Amazon Web Services(AWS)의 생성형 AI 서비스는 모든 크기의 조직에서 맞춤형 사용 사례에 맞게 사용자 지정된 데이터로 생성형 AI 애플리케이션을 구축하고 규모를 조정하는 데 사용할 수 있는 기술 세트입니다. 새로운 기능, 업계 최고의 파운데이션 모델(FM) 옵션, 가장 경제적인 인프라를 활용하여 혁신 속도를 높일 수 있습니다. 다음은 두 가지 AWS의 생성형 AI 서비스 예입니다.
Amazon Bedrock은 주요 AI 기업의 고성능 FM 옵션을 제공하는 완전관리형 서비스입니다. 인프라를 관리하지 않고도 데이터 증강을 위한 생성형 AI 기능을 안전하게 통합 및 배포할 수 있습니다.
Amazon Rekognition은 이미지 및 비디오에서 정보와 인사이트를 추출하기 위해 사전 훈련된 맞춤화 가능한 컴퓨터 비전 기능을 제공하는 완전관리형 AI 서비스입니다. 이미지를 분석하기 위한 맞춤형 모델을 개발하는 작업은 시간, 전문 지식 및 리소스가 필요한 중요한 작업입니다. 정확한 결정을 내리기에 충분한 데이터를 사용하는 모델을 제공하려면 수천 또는 수만 개의 수작업으로 제작된 레이블 이미지가 필요하기도 합니다.
Amazon Rekognition Custom Labels는 이미지의 무작위 자르기, 색상 지터링, 무작위 가우스 노이즈 등 모델 훈련을 위한 다양한 데이터 증강 작업을 수행합니다. 수천 개의 이미지가 아니라, 사용 사례에 특화된 작은 훈련 이미지 세트(보통 수백 개 이하)만 간편한 콘솔에 업로드하면 됩니다.
지금 계정을 만들어 AWS에서 데이터 증강을 시작하세요.