머신러닝 모델은 크게 분류 모델과 회귀 모델로 나눌 수 있으며, 각 모델 유형에 따라 적합한 평가 지표가 다릅니다.

1. 분류 모델

Confusion Matrix

https://d3s0tskafalll9.cloudfront.net/media/images/E-2-3.max-800x600_mMmzi4T.jpg

 

정확도(Accuracy)

: 전체 예측 중 정답을 맞힌 비율

수식: (TN + TP)/(TN + FP + FN + TP)

- 직관적이고 이해하기 쉬움

- 불균형 데이터셋에서는 신뢰도 낮음

 

정밀도(Precision)

: 양성(긍정)으로 예측한 것 중 실제 양성(긍정)인 비율

수식: TP / (TP + FP)

- Positive 예측 결과가 중요할 때 유용 (ex. 스팸 메일 분류)

 

재현율(Recall)

실제 양성(긍정) 중 모델이 양성(긍정)으로 예측한 비율

수식: TP / (TP + FN)

- Positive 데이터를 놓치면 안될 때 유용 (ex. 암 진단)

 

F1 Score

: 정밀도와 재현율의 조화 평균

2 * (Precision * Recall) / (Precision + Recall)

- 클래스 불균형 데이터셋에서 모델의 성능을 종합적으로 평가하는 데 사용

 

ROC Curve

: 민감도(Sensitivity)와 1-특이도(Specificity)로 그려지는 곡선

민감도(SE)(=Recall) = TP / (TP + FN)

특이도(SP) = TN / TN + FP

1-특이도(Specificity)(=False Positive Rate) = FP / (TN + FP)

 

AUC(Area Under the Curve)

: ROC 곡선 아래 영역의 넓이

- 0에서 1 사이의 값을 가지며, 1에 가까울수록 모델의 성능이 좋다는 것을 의미

 

Log Loss

: 예측 확률 분포와 실제 값의 차이를 측정

수식: - (1/N) * ∑[y * log(p) + (1-y) * log(1-p)] (y: 실제 값, p: 예측 확률)

- 확률 기반 모델의 성능 평가에 유용

 

2. 회귀 모델

평균 제곱 오차(Mean Squared Error, MSE)

: 실제 값과 예측 값의 차이를 제곱한 후 평균으로 계산한 값

MSE = Σ(yᵢ - ŷᵢ)² / n (yᵢ: 실제 값, ŷᵢ: 예측 값)

- 제곱하기 때문에 이상치에 민감

 

평균 절대 오차(Mean Absolute Error, MAE)

: 실제 값과 예측 값의 차이의 절대값을 평균한 값

MAE =  Σ|yᵢ - ŷᵢ| / n

- MSE보다 이상치에 덜 민감

 

R제곱(R-squared)

: 회귀 모델이 종속 변수의 변동성을 얼마나 잘 설명하는지를 나타내느 지표

R-squared = 1 - Σ(yᵢ - ŷᵢ)² / Σ(yᵢ - ȳ)² (yᵢ는 실제 값, ŷᵢ는 모델의 예측 값, ȳ는 실제 값의 평균)

                   = 1 - (SSR/SST) (SSR: 오차 제곱합, SST: 총 제곱합)

- 0에서 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 잘 설명한다는 것을 의미

 

Adjusted R-squared

: R제곱의 한계인 독립 변수의 수가 증가함에 따라 R제곱이 증가하는 문제를 보완한 지표로, 변수의 개수에 따른 패널티를 부여

Adjusted R-squared = 1 - [(1 - R²) * (n - 1) / (n - k - 1)] (n은 샘플의 수, k는 독립 변수의 수)

 

평균 백분율 오차(MAPE)

: 예측값과 실제값 사이의 백분율 차이의 평균을 나타내는 지표

MAPE = Σ((yᵢ - ŷᵢ) / yᵢ) / n * 100 ( yᵢ는 실제 값, ŷᵢ는 모델의 예측 값, n은 샘플의 수)

- 양수 또는 음수가 될 수 있음

728x90

+ Recent posts