본문 바로가기
AI

군집화와 분류의 차이

by smilemugi 2025. 12. 22.

AI 분야에서 **분류(Classification)**와 **군집화(Clustering)**는 데이터를 나누는 목적은 비슷하지만, **'정답(Label)의 유무'**라는 결정적인 차이가 있습니다.

가장 쉬운 차이는 **지도 학습(Supervised Learning)**이냐, **비지도 학습(Unsupervised Learning)**이냐의 구분입니다.


1. 분류 (Classification)

"이미 알고 있는 카테고리로 나누기"

분류는 각 데이터가 어떤 그룹에 속하는지 이미 정답(Label)이 정해진 데이터를 학습하여, 새로운 데이터의 정답을 맞히는 과정입니다.

  • 학습 방식: 지도 학습 (Supervised Learning)
  • 작동 원리: "이건 고양이 사진이야", "이건 강아지 사진이야"라고 알려준 뒤, 새로운 사진을 보여주면 기계가 기존 학습을 토대로 판단합니다.
  • 핵심 목표: 새로운 데이터의 레이블(범주)을 예측하는 것.
  • 예시: 스팸 메일 분류(스팸 vs 정상), 필기체 숫자 인식(0~9), 질병 진단(양성 vs 음성).

2. 군집화 (Clustering)

"데이터끼리 비슷한 것들끼리 묶기"

군집화는 정답(Label)이 없는 상태에서 데이터 자체의 특성과 유사도만을 분석하여, 비슷한 성격의 데이터들끼리 스스로 그룹을 만드는 과정입니다.

  • 학습 방식: 비지도 학습 (Unsupervised Learning)
  • 작동 원리: 사전 지식 없이 "이 데이터들은 서로 거리가 가깝네? 같은 그룹으로 묶자"라고 스스로 판단합니다. 그룹의 이름이 무엇인지는 기계가 알지 못합니다.
  • 핵심 목표: 데이터 내부에 숨겨진 구조나 패턴을 발견하는 것.
  • 예시: 고객 구매 패턴에 따른 시장 세분화, 유사한 뉴스 기사 묶기, 이상치 탐지(정상 패턴에서 벗어난 그룹 찾기).

3. 한눈에 비교하기

구분 분류 (Classification) 군집화 (Clustering)
학습 유형 지도 학습 (정답 있음) 비지도 학습 (정답 없음)
목적 미지의 데이터 레이블 예측 데이터 간의 유사성 파악 및 그룹화
데이터 특징 레이블(Label)이 포함된 학습 데이터 필요 레이블이 없는 데이터만으로 가능
알고리즘 예시 로지스틱 회귀, 결정 트리, SVM, CNN K-Means, DBSCAN, 계층적 군집화
비유 학생에게 문제와 답지를 주고 공부시킨 뒤 시험 보기 무작위의 카드를 비슷한 색깔이나 모양끼리 분류해 보라고 시키기

요약하자면

  • 분류는 기계에게 "이건 A고 저건 B야"라고 가르친 뒤 구분하게 하는 것이고,
  • 군집화는 기계에게 "뭐가 뭔지 모르겠지만 비슷한 것끼리 모아봐"라고 시키는 것입니다.

'AI' 카테고리의 다른 글

텍스트 분류의 핵심 도구와 기술  (0) 2025.12.22
군집화(Clustering)  (0) 2025.12.22
최소제곱법(Least Squares Method)  (0) 2025.12.22
선형 회귀와 비선형 회귀  (0) 2025.12.22
ROC와 AUC 곡선  (0) 2025.12.22