지도 기계 학습과 비지도 기계 학습의 차이점은 무엇일까요?

지도 및 비지도 기계 학습(ML)은 ML 알고리즘의 두 가지 범주입니다. ML 알고리즘은 대량의 과거 데이터를 처리하여 추론을 통해 데이터 패턴을 식별합니다. 

지도 학습 알고리즘은 알고리즘의 입력 및 출력을 모두 지정하는 샘플 데이터에서 훈련됩니다. 예를 들어 데이터는 해당 숫자를 나타내는 주석이 달린 손으로 쓴 숫자의 이미지일 수 있습니다. 지도 학습 시스템은 레이블이 지정된 데이터가 충분히 주어지면 결국 손으로 쓴 각 숫자와 관련된 픽셀 및 모양의 클러스터를 인식하게 됩니다. 

반면, 비지도 학습 알고리즘은 레이블이 지정되지 않은 데이터에서 훈련되며, 새로운 데이터를 검색하며 알 수 없는 입력과 미리 결정된 출력 사이에 의미 있는 연결을 설정합니다. 예를 들어, 비지도 학습 알고리즘은 다양한 뉴스 사이트의 뉴스 기사를 스포츠 및 범죄와 같은 일반적인 범주로 그룹화할 수 있습니다.

기법: 지도 학습과 비지도 학습

기계 학습에서는 예측 또는 추론을 수행하도록 컴퓨터를 가르칩니다. 먼저 알고리즘과 예제 데이터를 사용하여 모델을 훈련시킵니다. 그런 다음 모델을 애플리케이션에 통합하여 실시간으로 대규모로 추론을 생성합니다. 지도 학습과 비지도 학습은 서로 다른 두 가지 알고리즘 범주입니다.

지도 학습

지도 학습에서는 입력 데이터 세트와 레이블이 지정된 출력 데이터 쌍의 해당 세트로 모델을 훈련시킵니다. 레이블 지정은 일반적으로 수동으로 이루어집니다. 다음은 몇 가지 유형의 지도 기계 학습 기법입니다.

로지스틱 회귀

로지스틱 회귀는 하나 이상의 입력값을 기반으로 범주형 출력을 예측합니다. 바이너리 분류는 출력이 두 범주(예: 예 또는 아니요, 그리고 합격 또는 불합격) 중 하나에 해당할 때 사용됩니다. 멀티클래스 분류는 출력이 고양이, 개 또는 토끼와 같은 두 개 이상의 범주에 해당하는 경우입니다.  로지스틱 회귀 분석의 예제로는 학생이 교육 과정에에 로그인한 횟수를 기반으로 교재 단원에 합격 또는 불합격하는지 여부를 예측하는 것입니다.

로지스틱 회귀에 대해 읽어보기 »

선형 회귀

선형 회귀는 하나 이상의 입력을 기반으로 연속 척도에서 값을 예측하는 지도 학습 모델을 말합니다. 선형 회귀의 예제로는 주택 가격을 예측하는 것이 있습니다. 이러한 변수를 사용하여 일련의 과거 영업 훈련 데이터를 기반으로 모델을 학습시킨 후 위치, 연식, 룸 개수를 기반으로 주택 가격을 예측할 수 있습니다.

선형 회귀에 대해 읽어보기 »

의사 결정 트리

의사 결정 트리 지도 기계 학습 기법은 주어진 일부 입력을 받아 if-else 구조를 적용하여 결과를 예측합니다. 의사 결정 트리 문제의 예제로는 고객 이탈을 예측하는 것이 있습니다. 예를 들어 고객이 가입 후 애플리케이션을 방문하지 않는 경우 모델이 이탈을 예측할 수 있습니다. 또는 고객이 여러 장치에서 애플리케이션에 액세스하고 평균 세션 시간이 지정된 임계값을 초과하는 경우 모델이 보존을 예측할 수 있습니다.

신경망

신경망 솔루션은 좀 더 복잡한 지도 학습 기법입니다. 주어진 결과를 생성하기 위해 주어진 입력을 가져와 데이터 가중치 조정을 기반으로 하나 이상의 수학적 변환 계층을 실행합니다. 신경망 기법의 예제로는 손으로 쓴 이미지에서 숫자를 예측하는 것이 있습니다.

신경망에 대해 읽어보기 »

비지도 학습

비지도 기계 학습은 레이블이 지정된 출력 데이터 없이 알고리즘에 입력 데이터를 제공하는 것을 말합니다. 그런 다음 알고리즘은 자체적으로 데이터 내부 및 데이터 간의 패턴과 관계를 식별합니다. 다음은 몇 가지 유형의 비지도 학습 기법입니다.

클러스터링

클러스터링 비지도 학습 기법은 특정 데이터 입력을 그룹화하여 전체적으로 분류할 수 있습니다. 입력 데이터에 따라 다양한 유형의 클러스터링 알고리즘이 있습니다. 클러스터링의 예제로는 다양한 유형의 네트워크 트래픽을 식별하여 잠재적 보안 사고를 예측하는 것이 있습니다.

연관 규칙 학습

연관 규칙 학습 기법은 데이터 세트 내 입력 간의 규칙 기반 관계를 파악합니다. 예를 들어, Apriori 알고리즘은 시장 바구니 분석을 수행하여 커피와 우유를 함께 구매하는 경우가 많다는 등의 규칙을 식별합니다.

확률 밀도

비지도 학습의 확률 밀도 기법은 출력 값이 입력값에 대해 정상으로 간주되는 범위 내에 있을 가능성 또는 확률을 예측합니다. 예를 들어, 서버실의 온도 게이지는 일반적으로 특정 온도 범위 사이를 기록합니다. 그러나 확률 분포를 기반으로 갑자기 낮은 수치를 측정하면 장비 오작동을 나타낼 수 있습니다. 

차원 축소

차원 축소는 데이터 세트의 특징 수를 줄이는 비지도 학습 기법입니다. 다른 기계 학습 기능을 위해 데이터를 전처리하고 복잡성과 오버헤드를 줄이는 데 자주 사용됩니다. 예를 들어, 이미지 인식 애플리케이션에서 배경 특징을 흐리게 처리하거나 자를 수 있습니다.

사용 시기: 지도 학습과 비지도 학습

지도 학습 기법을 통해 결과가 알려져 있고 레이블이 지정된 데이터를 사용할 수 있는 문제를 해결할 수 있습니다. 이메일 스팸 분류, 이미지 인식, 알려진 과거 데이터를 기반으로 한 주가 예측 등을 예로 들 수 있습니다.

데이터에 레이블이 지정되지 않고 패턴을 발견하거나, 유사한 인스턴스를 그룹화하거나, 이상 징후를 탐지하는 것이 목적인 시나리오에 비지도 학습을 사용할 수 있습니다. 레이블이 지정된 데이터가 없는 탐색 작업에도 사용할 수 있습니다. 예를 들어 대규모 데이터 아카이브 구성, 추천 시스템 구축, 구매 행동에 따른 고객 그룹화 등이 있습니다.

지도 학습과 비지도 학습을 함께 사용할 수 있습니까?

반지도 학습은 일반적인 문제에 지도 학습 기법과 비지도 학습 기법을 모두 적용하는 것을 말합니다. 그 자체로도 기계 학습의 또 다른 범주입니다.

데이터 세트의 레이블을 구하기 어려운 경우 반지도 학습을 적용할 수 있습니다. 레이블이 지정된 데이터의 양은 적지만 레이블이 지정되지 않은 데이터는 상당히 많을 수 있습니다. 레이블이 지정된 데이터 세트를 단독으로 사용하는 것과 비교하여 지도 학습 기법과 비지도 학습 기술을 결합하면 정확성과 효율성이 향상됩니다.

다음은 반지도 학습 애플리케이션의 몇 가지 예입니다.

사기 식별

대규모 거래 데이터에는 전문가들이 사기 거래를 확인한 레이블이 붙은 데이터의 일부가 있습니다. 더 정확한 결과를 얻기 위해 기계 학습 솔루션은 레이블이 지정되지 않은 데이터를 먼저 학습한 다음 레이블이 지정된 데이터를 사용하여 학습합니다.

감정 분석

조직의 텍스트 기반 고객 상호 작용의 범위를 고려할 때 모든 채널에서 감정을 분류하거나 레이블을 지정하는 것은 비용 효율적이지 않을 수 있습니다. 조직은 데이터에서 레이블이 지정되지 않은 더 큰 부분을 먼저 학습한 다음 레이블이 지정된 샘플을 대상으로 모델을 학습할 수 있습니다. 이를 통해 조직은 비즈니스 전반의 고객 감정에 대해 더 큰 확신을 갖게 될 것입니다.

문서 분류

대규모 문서 기반에 범주를 적용할 경우 물리적으로 레이블을 지정하기에는 문서가 너무 많을 수 있습니다. 예를 들어, 보고서, 성적 증명서 또는 사양이 셀 수 없이 많을 수 있습니다. 레이블이 지정되지 않은 데이터에 대한 교육을 시작하면 레이블이 지정된 유사한 문서를 식별하는 데 도움이 됩니다. 

차이점 요약: 지도 학습과 비지도 학습

 

지도 학습

비지도 학습

무엇인가요?

입력 데이터 세트와 레이블이 지정된 출력 데이터 쌍의 해당 세트를 사용하여 모델을 훈련시킵니다.

레이블이 지정되지 않은 데이터에서 숨겨진 패턴을 발견하도록 모델을 훈련시킵니다.

기법

로지스틱 회귀, 선형 회귀, 의사 결정 트리 및 신경망.

클러스터링, 연관 규칙 학습, 확률 밀도 및 차원 축소

목표

알려진 입력값을 기반으로 출력을 예측합니다.

입력 데이터 포인트 간의 중요한 관계 정보를 식별합니다. 그런 다음 이를 새로운 입력에 적용하여 유사한 인사이트를 도출할 수 있습니다.

접근 방식

예측된 출력과 실제 레이블 간의 오차를 최소화합니다.

데이터 내에서 패턴, 유사점 또는 이상 징후를 찾을 수 있습니다.

AWS는 지도 학습과 비지도 학습을 어떻게 지원할 수 있나요?

Amazon Web Services(AWS)는 지도, 비지도 및 반지도 기계 학습(ML)을 지원하는 다양한 서비스를 제공합니다. 규모, 복잡성 또는 사용 사례에 상관없이 솔루션을 구축, 실행 및 통합할 수 있습니다.

Amazon SageMaker는 ML 솔루션을 처음부터 새로 구축할 수 있는 완벽한 플랫폼입니다. SageMaker는 사전 구축된 지도 및 비지도 학습 모델, 스토리지 및 컴퓨팅 기능, 완전관리형 환경을 모두 갖추고 있습니다.

예를 들어, 작업에 사용할 수 있는 SageMaker 기능은 다음과 같습니다.

  • Amazon SageMaker Autopilot을 사용하여 다양한 솔루션을 자동으로 탐색하고 주어진 데이터 세트에 가장 적합한 모델을 찾을 수 있습니다.
  • Amazon SageMaker Data Wrangler를 사용하여 데이터를 선택하고, 데이터 통찰력을 이해하고, 데이터를 변환하여 ML에 대비할 수 있습니다.
  • Amazon SageMaker Experiments을 사용하여 ML 학습 반복을 분석하고 비교하여 가장 성과가 좋은 모델을 선택할 수 있습니다.
  • Amazon SageMaker Clarify를 사용하여 잠재적인 편향을 감지하고 측정할 수 있습니다. 이러한 방식으로 ML 개발자는 잠재적인 편향을 해결하고 모델 예측을 설명할 수 있습니다.

지금 계정을 생성하여 AWS에서 지도 및 비지도 기계 학습을 시작하세요.

AWS 활용 다음 단계

지도 기계 학습으로 구축 시작

AWS에서 지도 기계 학습을 시작하는 방법 알아보기

자세히 알아보기 
비지도 기계 학습으로 구축 시작

AWS에서 비지도 기계 학습을 시작하는 방법 알아보기

자세히 알아보기