본문 바로가기
Data Analysis/Basic statistics

[기초통계] 회귀분석(회귀분석에서의 분산분석 활용, F값, MSE)

by Dlearner 2019. 9. 23.
반응형

앞 포스팅에서 회귀분석에서 적합도 검정을 위한 결정계수를 구하는 방법을 알아보았다.

 

 

[기초통계] 회귀분석(적합도 검정, 결정계수)

앞 포스팅에서 회귀분석의 회귀식을 도출하는 방법을 살펴보았다. 2019/09/17 - [Data Analysis/Basic statistics] - [기초통계] 회귀분석(단순회귀분석, 잔차, 최소제곱법) [기초통계] 회귀분석(단순회귀분석, 잔..

dlearner.tistory.com

이번 포스팅에서는 적합도 검정에 회귀분석에서의 분산분석에 대해 알아보려 한다.

 

 

 

 

- 회귀분석에서의 분산분석(...?)

'회귀분석과 분산분석은 서로 다른 분석이 아니었던가'라고 생각이 드는 사람들이 대부분일 것이라 감히 짐작해본다. 필자도 회귀분석과 분산분석의 연관성에 대해 이번 포스팅을 작성하며 다시 한 번 되짚을 수 있었다.

 

 

 

 

회귀분석을 한 번이라도 스터디해보았던 사람이라면 '분산분석표'라는 표를 본 적이 있을것이다. 분산분석표는 이전 포스팅에서 알아보았던 총제곱합(SST), 오차 제곱합(SSE)등을 활용해서 회귀직선의 유의성을 판단하는 지표를 계산하기 위해 만들어지는 표이다. 

 

회귀분석에서 유의성을 판단하는 지표를 계산하는데 분산분석표를 활용하는 이유는, 총편차를 분해하는 과정이 분산분석을 하는 과정과 동일하기 때문이다. 때문에 회귀분석을 하는 과정에서 분산분석의 과정이 필요로 하게 된다.

 

아래의 표는 회귀분석과 분산분석의 작동원리를 비교한 표이다. 지표를 계산할 때 쓰는 값만 다를 뿐, 그 과정은 같다는 것을 알 수 있다.

 

 

회귀분석

 

분산분석

총제곱합($SST$) = $\sum{(Y_i-\bar{Y})^2}$ 

회귀 제곱합($SSR$) = $\sum{(\hat{Y}-\bar{Y})^2}$

오차 제곱합($SSE$) = $\sum{(Y_i-\hat{Y})^2}$ 

제곱합

$SS_{합계}$($SST$)$\sum{(Y_i-\bar{Y})^2}$ 

$SS_{집단 간}$($SSB$) = $\sum{(\hat{Y}-\bar{Y})^2}$

$SS_{집단 내}$($SSW$)$\sum{(Y_i-\hat{Y})^2}$ 

$SST$ = $SSR$ + $SSE$

제곱합

관계

$SS_{합계}$ = $SS_{집단 간}$ + $SS_{집단 내}$

($SST$ = $SSB$ + $SSW$)

$SST$의 자유도 : n-1

$SSR$의 자유도 : 1

$SSE$의 자유도 : n-2

자유도

$SST$의 자유도 : n-1 (n: 전체 자료 개수)

$SSB$의 자유도 : i-1 (i:표본 세트의 개수)

$SSW$의 자유도 : n-i

$F = \frac{\frac{SSR}{df_{SSR}}}{\frac{SSE}{df_{SSE}}} = \frac{\frac{SSR}{1}}{\frac{SSE}{n-2}}= \frac{MSR}{MSE}$

F값

$F = \frac{\frac{SS_{집단간}}{df_{집단간}}}{\frac{SS_{집단 내}}{df_{집단내}}} = \frac{MS_{집단간}}{MS_{집단내}}$

 

 

 

 

 

 

- 회귀분석에서의 분산분석 과정

회귀분석의 유의성을 판단하기 위해 사용하는 분산분석을 실행하기 위해서는, 우선 각 제곱합 SST, SSR, SSE의 평균을 알아야 한다. 따라서 각 제곱합에서 평균을 구하기 위해 자유도를 알아야 하며, 각 자유도는 아래와 같다.

 

 

$SST$의 자유도 : n - 1

$SSR$의 자유도 : 1

$SSE$의 자유도 : n - 2

 

 

분산비율인 F값을 구하기 위해서 SSR의 평균과 SSE의 평균을 구해야 하며, 그 과정은 아래와 같다. MSR은 SSR을 자유도 1로 나눈 값으로 '평균 회귀제곱'이라 칭하기도 한다. MSE는 SSE을 자유도 n-2로 나눈 값으로 '평균 오차 제곱'이라고 부른다.

 

 

$MSE = \frac{SSE}{n-2}$

$MSR = \frac{SSR}{1}$

 

 

위의 값을 이용하여 회귀와 잔차에 대한 분산비율인 F값을 구할 수 있고, 이 과정은 아래와 같다.

 

 

$F  = \frac{\frac{SSR}{1}}{\frac{SSE}{n-2}}= \frac{MSR}{MSE}$

 

 

 

이렇게 분산비율 F값을 구함으로써 회귀식의 설명력에 대한 검정을 가능케 한다.

 

 

 

 

 

- F값을 통한 회귀식의 유의성 검정

단순회귀분석에서는 F검정을 통해 회귀식의 유의성을 검정한다.

위의 회귀분석 내 분산분석 과정을 거쳐 탄생한 F값을 활용하는데, F값이 자유도가 (1,n-2)인 F분포표 값보다 더 크면 귀무가설을 기각하고 대립가설을 채택하면 된다.

 

회귀식의 유의성 검정에 관련된 귀무가설과 대립가설을 아래와 같다.

 

$H_0$ :  회귀식이 유의하지 않다.

$H_1$ : 회귀식이 유의하다.

 

 

 

 

 

반응형

댓글