본문 바로가기

AI12

텍스트 분류의 핵심 도구와 기술 AI에서 텍스트 분류(Text Classification)는 비정형 데이터인 텍스트를 컴퓨터가 이해할 수 있는 숫자로 바꾸고, 이를 적절한 카테고리로 할당하는 과정입니다. 텍스트 분류를 가능하게 하는 핵심 도구와 기술은 크게 텍스트 전처리, 벡터화, 모델링 세 단계로 나뉩니다.1. 텍스트 전처리 (Preprocessing)컴퓨터가 텍스트의 본질적인 의미에 집중할 수 있도록 노이즈를 제거하는 과정입니다.토큰화 (Tokenization): 문장을 단어, 형태소, 혹은 문자 단위(Token)로 잘게 나누는 작업입니다. 한국어는 KoNLPy(Mecab, Okt 등), 영어는 NLTK, SpaCy 같은 도구가 필수적입니다.불용어 제거 (Stopwords Removal): '은/는', '이/가', 'the', 'a.. 2025. 12. 22.
군집화와 분류의 차이 AI 분야에서 **분류(Classification)**와 **군집화(Clustering)**는 데이터를 나누는 목적은 비슷하지만, **'정답(Label)의 유무'**라는 결정적인 차이가 있습니다.가장 쉬운 차이는 **지도 학습(Supervised Learning)**이냐, **비지도 학습(Unsupervised Learning)**이냐의 구분입니다.1. 분류 (Classification)"이미 알고 있는 카테고리로 나누기"분류는 각 데이터가 어떤 그룹에 속하는지 이미 정답(Label)이 정해진 데이터를 학습하여, 새로운 데이터의 정답을 맞히는 과정입니다.학습 방식: 지도 학습 (Supervised Learning)작동 원리: "이건 고양이 사진이야", "이건 강아지 사진이야"라고 알려준 뒤, 새로운 사진.. 2025. 12. 22.
군집화(Clustering) **군집화(Clustering)**는 데이터의 숨겨진 구조를 파악하기 위해 정답(Label)이 없는 상태에서 유사한 특징을 가진 데이터끼리 그룹을 만드는 비지도 학습(Unsupervised Learning)의 핵심 기술입니다.어떤 기준으로 묶느냐에 따라 다양한 알고리즘이 존재하는데, 가장 대표적인 3가지 방식을 중심으로 자세히 설명해 드릴게요.1. K-평균 군집화 (K-Means Clustering)가장 대중적이고 직관적인 알고리즘입니다. 데이터를 K개의 점(중심점)을 기준으로 묶습니다.작동 방식:사용자가 묶을 그룹의 개수($K$)를 정합니다.임의의 위치에 $K$개의 중심점을 배치합니다.각 데이터는 가장 가까운 중심점에 소속됩니다.소속된 데이터들의 평균 위치로 중심점을 이동합니다.중심점이 더 이상 변하지.. 2025. 12. 22.
최소제곱법(Least Squares Method) **최소제곱법(Least Squares Method)**은 회귀 분석에서 데이터들과 모델(직선 또는 곡선) 사이의 오차를 최소화하여 가장 적합한 함수를 찾아내는 수학적 기법입니다.머신러닝이나 통계학에서 선형 회귀 모델을 훈련시킬 때 가장 기본이 되는 원리이기도 합니다.1. 핵심 원리: '오차의 제곱'을 최소로!데이터 점들이 흩어져 있을 때, 이 점들의 추세를 가장 잘 나타내는 직선($y = ax + b$)을 긋고 싶다고 가정해 봅시다.잔차(Residual) 계산: 실제 데이터 값($y$)과 모델이 예측한 값($\hat{y}$) 사이의 거리(오차)를 구합니다.제곱하는 이유: 오차에는 양수(+)와 음수(-)가 섞여 있습니다. 단순히 더하면 서로 상쇄되어 오차의 크기를 정확히 측정할 수 없으므로, 모든 오차를.. 2025. 12. 22.
선형 회귀와 비선형 회귀 데이터 분석에서 **회귀(Regression)**란 입력 변수($x$)와 출력 변수($y$) 사이의 상관관계를 모델링하여, 새로운 값이 들어왔을 때 결과를 예측하는 기법입니다. 이때 관계가 **'직선'**이냐 아니냐에 따라 선형과 비선형으로 나뉩니다.1. 선형 회귀 (Linear Regression)"데이터의 관계를 가장 잘 설명하는 '직선'을 찾는 것"독립 변수($x$)와 종속 변수($y$)의 관계가 정비례하거나 반비례하는 직선적인 형태일 때 사용합니다.수식 형태: $y = wx + b$ (여기서 $w$는 기울기/가중치, $b$는 절편/편향)특징: 모델이 단순하고 계산 속도가 매우 빠릅니다. 결과에 대한 해석이 직관적입니다(예: "공부 시간이 1시간 늘어나면 성적이 5점 오른다").단점: 현실 세계의 .. 2025. 12. 22.
ROC와 AUC 곡선 분류 모델의 성능을 한눈에 파악하고 비교할 때 가장 많이 사용되는 지표가 바로 ROC 곡선과 AUC입니다.단순히 "정답을 몇 개 맞혔느냐"를 넘어, 모델이 얼마나 **"양성과 음성을 잘 구분해내는가"**를 시각적, 수치적으로 보여줍니다.1. ROC 곡선 (Receiver Operating Characteristic Curve)"임계값(Threshold)에 따른 모델의 태도 변화를 보여주는 그래프"우리가 분류를 할 때 보통 "확률이 0.5 이상이면 양성"이라고 판단하지만, 상황에 따라 이 기준(임계값)을 0.1이나 0.9로 바꿀 수 있습니다. ROC 곡선은 이 임계값을 0부터 1까지 변화시킬 때 모델의 성능이 어떻게 변하는지를 나타냅니다.X축: FPR (False Positive Rate, 위양성률)실제 .. 2025. 12. 22.