데이터 분석에서 **회귀(Regression)**란 입력 변수($x$)와 출력 변수($y$) 사이의 상관관계를 모델링하여, 새로운 값이 들어왔을 때 결과를 예측하는 기법입니다. 이때 관계가 **'직선'**이냐 아니냐에 따라 선형과 비선형으로 나뉩니다.
1. 선형 회귀 (Linear Regression)
"데이터의 관계를 가장 잘 설명하는 '직선'을 찾는 것"
독립 변수($x$)와 종속 변수($y$)의 관계가 정비례하거나 반비례하는 직선적인 형태일 때 사용합니다.
- 수식 형태: $y = wx + b$ (여기서 $w$는 기울기/가중치, $b$는 절편/편향)
- 특징: 모델이 단순하고 계산 속도가 매우 빠릅니다. 결과에 대한 해석이 직관적입니다(예: "공부 시간이 1시간 늘어나면 성적이 5점 오른다").
- 단점: 현실 세계의 복잡하고 구부러진 데이터 관계를 표현하기에는 한계가 있습니다.
2. 비선형 회귀 (Non-linear Regression)
"데이터의 관계를 '곡선'이나 더 복잡한 형태로 표현하는 것"
데이터가 직선이 아닌 곡선 형태의 패턴을 보일 때 사용합니다. 단순한 직선보다 훨씬 복잡한 관계를 학습할 수 있습니다.
- 수식 형태: 독립 변수들이 고정된 상수가 아닌 지수, 로그, 삼각함수 등의 형태로 결합됩니다. (예: $y = ax^2 + bx + c$)
- 특징: 선형 회귀로 해결할 수 없는 복잡한 문제를 풀 수 있습니다. 대부분의 딥러닝 모델이 이 비선형 회귀의 아주 복잡한 형태라고 볼 수 있습니다.
- 단점: 선형 모델보다 계산이 복잡하고, 데이터가 적으면 과적합(Overfitting, 너무 훈련 데이터에만 끼워 맞춰짐)될 위험이 큽니다.
3. 선형 vs 비선형 한눈에 비교
| 구분 | 선형 회귀 (Linear) | 비선형 회귀 (Non-linear) |
| 그래프 형태 | 직선 (Straight Line) | 곡선 (Curved Line) |
| 복잡도 | 낮음 (단순함) | 높음 (복잡함) |
| 데이터 관계 | $y$가 $x$의 변화에 일정하게 반응 | $y$가 $x$의 변화에 따라 불규칙/다양하게 반응 |
| 예시 | 키에 따른 몸무게 예측 | 시간에 따른 박테리아 증식량 예측 |
💡 다항 회귀 (Polynomial Regression)
비선형 회귀와 헷갈리기 쉬운 개념으로 다항 회귀가 있습니다. $x^2, x^3$ 처럼 항을 추가하여 곡선 형태를 만들지만, 가중치($w$) 관점에서는 여전히 선형 결합이기 때문에 '선형 회귀'의 확장판으로 보기도 합니다.
딥러닝과의 연결고리
인공신경망(ANN)에서 **활성화 함수(ReLU, Sigmoid 등)**를 쓰는 이유가 바로 이 비선형성을 추가하기 위해서입니다. 아무리 층을 깊게 쌓아도 활성화 함수가 없다면 단순한 선형 회귀의 반복일 뿐이지만, 활성화 함수가 들어감으로써 모델은 아주 복잡한 비선형 관계를 학습할 수 있게 됩니다.
'AI' 카테고리의 다른 글
| 군집화(Clustering) (0) | 2025.12.22 |
|---|---|
| 최소제곱법(Least Squares Method) (0) | 2025.12.22 |
| ROC와 AUC 곡선 (0) | 2025.12.22 |
| 분류 모델의 성능을 평가 (0) | 2025.12.22 |
| AI 분류(Classification) 모델 (0) | 2025.12.22 |