데이터분석/통계

회귀분석 결과 해석시 SSR,SSE,SST의 의미와 용어 주의할점

씩씩한 IT블로그 2020. 12. 16. 18:07
반응형

회귀분석을 수행한 후 결과값을 해석할때 SSR,SSE,SST값을 이용한다.

이때 각 요소들의 의미와 용어의 헷갈리는 부분을 정리한다.

알아보기 쉽게 설명가능수치는 파란색 설명불가능한 수치는 빨간색으로 표시한다.

 

 

 

1. 설명가능한 수치

y값의 평균과 y값을 통해 구한 회귀선 간의 차이를 의미한다.

y값들을 분석하여 이들을 설명하는 회귀식을 구했다. 이는 분석을 통해 설명이 가능해진 수치이다.

정리하면 아래와 같다.

 

 

 

2. 설명불가능한 수치

y실제값과 예측값 사이의 차이를 의미한다.

y값을 회귀식으로 예측했다. 하지만 예측한 값과 실제값이 차이가 있을 수 있다. 이것은 회귀식으로는 설명할 수 없는 설명불가능한 수치이다.

정리하면 아래와 같다.

 

 

 

3. 총 변동

y값들의 평균값과 실제 y값의 차이로 총 변동을 의미한다

sse와 ssr값을 합친값이기도 하다.

 

 

 

 

**용어 주의할점**

이때 용어에서 주의할 점이 있다.

설명가능한 수치는 ESS(Explained Sum of Squares) 혹은 SSR(Sum of Squares due to Regreesion)라고 하고

설명불가능한 수치는 RSS(Residual Sum of Squares) 혹은 SSE(Sum of Squares estimation of Error)라고 한다.

 

이때 설명가능한 수치 ESS(Explained Sum of Squares)를 SSE라고 적으면

설명불가능한 수치 SSE(Sum of Squares estimation of Error) 와 헷갈릴 수 있고

 

설명불가능한 수치 RSS(Residual Sum of Squares)를 SSR라고 적으면

설명가능한 수치 SSR(Sum of Squares due to Regreesion) 와 헷갈릴 수 있는 것이다!

 

알파벳이 R과 E가 설명가능한수치불가능한 수치 둘다 들어가기 때문에 앞에 쓰지 않으면 구분이 되지 않는 것이다!

 

위키피디아에선 설명 가능한 수치를 ESS 혹은 SSR이라고 정의했고 

(en.wikipedia.org/wiki/Explained_sum_of_squares)

설명 불가능한 수치를 SSE 혹은 RSS로 정의했다.

(en.wikipedia.org/wiki/Residual_sum_of_squares)

하지만 실제로 각종 블로그에서는 혼용해서 사용하는 경우가 많다. 대부분 E와 R을 뒤에 쓴다.

그리고 둘다 잘못된 표현은 아닌거같다.

 

 

 

따라서 설명 가능수치가 SSE일때는 E를 explained로, SSR일때는 R을 regrseesion으로 해석하고

설명 불가능수치가 SSE일때는 E를 error로, SSR일때는 R을 residual로 알아서 잘 해석해야 한다!

 

헷갈리지 않도록 주의할것.

반응형