본문 바로가기
AI

분류 모델의 성능을 평가

by smilemugi 2025. 12. 22.

분류 모델의 성능을 평가할 때, F1 Score와 **특이도(Specificity)**는 모델이 얼마나 '균형 잡힌' 판단을 하는지, 그리고 '정답이 아닌 것을 얼마나 잘 걸러내는지'를 확인하는 아주 중요한 지표입니다.

이 지표들을 이해하기 위해서는 먼저 **오차 행렬(Confusion Matrix)**의 4가지 개념을 알아야 합니다.

  • TP (True Positive): 양성(1)을 양성으로 잘 맞춤
  • TN (True Negative): 음성(0)을 음성으로 잘 맞춤
  • FP (False Positive): 음성(0)인데 양성으로 잘못 예측 (가짜 양성)
  • FN (False Negative): 양성(1)인데 음성으로 잘못 예측 (가짜 음성)

1. 특이도 (Specificity)

"정답이 아닌 것을 아니라고 할 수 있는 능력"

특이도는 실제 음성(Negative) 데이터 중에서 모델이 얼마나 정확하게 음성이라고 예측했는지를 나타냅니다. '진음성률(True Negative Rate)'이라고도 부릅니다.

  • 공식:
Specificity=TN/(TN+FP)
  • 의의: 가짜 양성(FP)이 나오면 큰일 나는 상황에서 매우 중요합니다.
    • 예시: 범죄 용의자 검거 시, 무고한 사람(Negative)을 범인(Positive)으로 오해해서는 안 될 때 특이도가 높아야 합니다.
    • 재현율(Recall)과의 관계: 재현율(민감도)이 '환자를 놓치지 않는 능력'이라면, 특이도는 '건강한 사람을 환자로 오해하지 않는 능력'입니다.

2. F1 Score

"정밀도와 재현율의 완벽한 조화"

F1 Score는 **정밀도(Precision)**와 **재현율(Recall)**의 조화평균입니다. 단순히 '정확도(Accuracy)'만 보면 데이터가 한쪽으로 쏠려있을 때(데이터 불균형) 속기 쉬운데, F1 Score는 이를 방지합니다.

  • 공식:
F1=2 * (Precision * Recall) / (Precision + Recall)
  • 의의: 정밀도와 재현율 중 어느 한쪽으로 치우치지 않고 둘 다 균형 있게 높을 때 F1 Score가 높게 나옵니다.
    • 예시: 100명 중 암 환자가 1명뿐인 데이터에서 모델이 "모두 정상입니다"라고만 해도 정확도는 99%가 나옵니다. 하지만 이때 F1 Score를 계산하면 0점에 가깝게 나와, 이 모델이 사실상 쓸모없음을 알려줍니다.

요약 및 비교

지표 핵심 질문 중요하게 보는 데이터 주요 활용 분야
특이도 "정상이면 정상이라고 잘 하는가?" 실제 음성(Negative) 스팸 메일 차단, 무죄 추정
F1 Score "예측이 얼마나 정교하고 꼼꼼한가?" 양성(Positive)의 정밀도와 재현율 데이터 불균형이 심한 분류 문제