AI 분류(Classification) 모델은 데이터를 미리 정의된 여러 개의 범주(Category) 중 하나로 나누는 지도 학습(Supervised Learning)의 대표적인 방식입니다.
쉽게 말해, 컴퓨터가 "이 사진은 고양이인가, 개인가?" 혹은 "이 메일은 스팸인가, 정상인가?"를 판단하도록 만드는 기술입니다.
1. 분류 모델의 핵심 개념
분류 모델은 데이터의 특징(Feature)을 분석하여 **결정 경계(Decision Boundary)**를 학습합니다.
- 이진 분류 (Binary Classification): 데이터를 두 가지 중 하나로 분류합니다. (예: 예/아니오, 합격/불합격, 스팸/정상)
- 다중 분류 (Multi-class Classification): 세 개 이상의 범주 중 하나로 분류합니다. (예: 숫자 0~9 인식, 꽃 종류 판별)
2. 주요 모델 종류
① 로지스틱 회귀 (Logistic Regression)
이름은 회귀지만 실제로는 이진 분류에 주로 쓰입니다. 데이터가 특정 클래스에 속할 확률을 0과 1 사이의 값으로 계산합니다.
- 특징: 구현이 쉽고 계산이 빨라 베이스라인 모델로 자주 쓰입니다.
② 결정 트리 (Decision Tree)
스무고개처럼 데이터의 특징에 따라 질문을 던져가며 데이터를 분류합니다.
- 특징: 분류 과정이 매우 직관적이고 사람이 이해하기 쉽지만, 나무가 너무 깊어지면 과적합(Overfitting)이 발생하기 쉽습니다.
③ 서포트 벡터 머신 (SVM)
데이터 그룹 사이의 거리를 최대화하는 **최적의 경계선(Hyperplane)**을 찾는 방식입니다.
- 특징: 복잡한 경계도 잘 찾아내며, 적은 양의 데이터로도 좋은 성능을 내는 경우가 많습니다.
④ 랜덤 포레스트 (Random Forest)
여러 개의 결정 트리를 만들고, 각 나무의 결과값을 투표(Ensemble)하여 최종 결정을 내립니다.
- 특징: 결정 트리의 단점인 과적합을 방지하고 매우 안정적인 성능을 보입니다.
⑤ KNN (K-Nearest Neighbors)
새로운 데이터가 들어왔을 때 가장 가까운 이웃 K개가 무엇인지 보고 다수결로 결정하는 방식입니다.
- 특징: 단순하지만 데이터 양이 많아지면 계산 속도가 느려집니다.
⑥ 인공신경망 / 딥러닝 (ANN, CNN 등)
앞서 설명한 것처럼 층을 깊게 쌓아 매우 복잡한 데이터(이미지, 음성 등)를 분류합니다.
- 특징: 현대 AI 기술의 핵심이며, 데이터가 많을수록 압도적인 정확도를 자랑합니다.
3. 분류 모델의 성능 평가
모델이 얼마나 잘 분류하는지는 단순히 '맞았다/틀렸다'만 보는 것이 아니라 다양한 지표를 활용합니다.
- 정확도 (Accuracy): 전체 중 맞게 예측한 비율.
- 정밀도 (Precision): 모델이 '정답'이라고 한 것 중 진짜 정답인 비율.
- 재현율 (Recall): 실제 정답인 것들 중에서 모델이 정답으로 맞춘 비율.
예시: 암 진단의 경우, 실제 환자를 놓치면 안 되기 때문에 **재현율(Recall)**이 무엇보다 중요합니다.
'AI' 카테고리의 다른 글
| ROC와 AUC 곡선 (0) | 2025.12.22 |
|---|---|
| 분류 모델의 성능을 평가 (0) | 2025.12.22 |
| 머신러닝(Machine Learning)과 딥러닝(Deep Learning) (0) | 2025.12.22 |
| 인공신경망 중에서 가장 대표적인 두 모델인 CNN과 RNN (0) | 2025.12.22 |
| 인공신경망의 구조와 작동 원리 (0) | 2025.12.22 |