-
R-squred
파이썬에서 구현 시 r2_score
우리말로 결정계수라고 하며, R^2로 표현된다.
회귀모형의 설명력을 표현하는 것으로, p-value와 같이 0과 1사이의 값을 가지고 있으며, 1에 가까울 수록 설명력이 높다고(잘 만들어진 모형이라는 평가) 해석할 수 있다.
회귀분석이란, 흩어진 데이터들을 가장 잘 설명하는 하나의 선을 구하는 방법인데, 그 선이 얼마나 데이터를 잘 설명할 수 있는가에 대한 점수가 바로 R-squared이다.
R-squared를 구하는 공식은 (SSR/SST) 인데,
SST(Sum of Square Total) 은 편차의 제곱합으로, (실제값과 예측값의 차이 + 실제값과 평균값의 차이)를 제곱한 것이다.
SSE(Sum of Square Error) 은 회귀식과 실제값의 차이를 의미한다. 식으론 회귀식과 실제값의 차이의 제곱을 사용한다.
SSR(Sum of Square Regression) 은 회귀식과 평균값의 차이를 의미한다. 회귀식이 평균값과 차이가 날수록 SSR값이 커지는데, 이는 회귀식이 모든 데이터를 고루 설명하고 있는 것으로 해석할 수 있다. SSR이 높아질수록 R-squared가 높아진다는 것이다.
-> 여기서, SST = SSE + SSR로 표현할 수 있다.
+ R-squared 의 overfitting 문제를 반드시 고려해봐야 한다.