AI 분야에서 **분류(Classification)**와 **군집화(Clustering)**는 데이터를 나누는 목적은 비슷하지만, **'정답(Label)의 유무'**라는 결정적인 차이가 있습니다.
가장 쉬운 차이는 **지도 학습(Supervised Learning)**이냐, **비지도 학습(Unsupervised Learning)**이냐의 구분입니다.
1. 분류 (Classification)
"이미 알고 있는 카테고리로 나누기"
분류는 각 데이터가 어떤 그룹에 속하는지 이미 정답(Label)이 정해진 데이터를 학습하여, 새로운 데이터의 정답을 맞히는 과정입니다.
- 학습 방식: 지도 학습 (Supervised Learning)
- 작동 원리: "이건 고양이 사진이야", "이건 강아지 사진이야"라고 알려준 뒤, 새로운 사진을 보여주면 기계가 기존 학습을 토대로 판단합니다.
- 핵심 목표: 새로운 데이터의 레이블(범주)을 예측하는 것.
- 예시: 스팸 메일 분류(스팸 vs 정상), 필기체 숫자 인식(0~9), 질병 진단(양성 vs 음성).
2. 군집화 (Clustering)
"데이터끼리 비슷한 것들끼리 묶기"
군집화는 정답(Label)이 없는 상태에서 데이터 자체의 특성과 유사도만을 분석하여, 비슷한 성격의 데이터들끼리 스스로 그룹을 만드는 과정입니다.
- 학습 방식: 비지도 학습 (Unsupervised Learning)
- 작동 원리: 사전 지식 없이 "이 데이터들은 서로 거리가 가깝네? 같은 그룹으로 묶자"라고 스스로 판단합니다. 그룹의 이름이 무엇인지는 기계가 알지 못합니다.
- 핵심 목표: 데이터 내부에 숨겨진 구조나 패턴을 발견하는 것.
- 예시: 고객 구매 패턴에 따른 시장 세분화, 유사한 뉴스 기사 묶기, 이상치 탐지(정상 패턴에서 벗어난 그룹 찾기).
3. 한눈에 비교하기
| 구분 | 분류 (Classification) | 군집화 (Clustering) |
| 학습 유형 | 지도 학습 (정답 있음) | 비지도 학습 (정답 없음) |
| 목적 | 미지의 데이터 레이블 예측 | 데이터 간의 유사성 파악 및 그룹화 |
| 데이터 특징 | 레이블(Label)이 포함된 학습 데이터 필요 | 레이블이 없는 데이터만으로 가능 |
| 알고리즘 예시 | 로지스틱 회귀, 결정 트리, SVM, CNN | K-Means, DBSCAN, 계층적 군집화 |
| 비유 | 학생에게 문제와 답지를 주고 공부시킨 뒤 시험 보기 | 무작위의 카드를 비슷한 색깔이나 모양끼리 분류해 보라고 시키기 |
요약하자면
- 분류는 기계에게 "이건 A고 저건 B야"라고 가르친 뒤 구분하게 하는 것이고,
- 군집화는 기계에게 "뭐가 뭔지 모르겠지만 비슷한 것끼리 모아봐"라고 시키는 것입니다.
'AI' 카테고리의 다른 글
| 텍스트 분류의 핵심 도구와 기술 (0) | 2025.12.22 |
|---|---|
| 군집화(Clustering) (0) | 2025.12.22 |
| 최소제곱법(Least Squares Method) (0) | 2025.12.22 |
| 선형 회귀와 비선형 회귀 (0) | 2025.12.22 |
| ROC와 AUC 곡선 (0) | 2025.12.22 |