본문 바로가기
Data Analysis/Basic statistics

[기초통계] 회귀분석(다중공선성)

by Dlearner 2019. 10. 4.
반응형

회귀분석을 하다보면 다중공선성이라는 이슈가 자주 발생될 때가 있다. 이번 포스팅에서는 다중공선성이 무엇인지, 그 판단법과 해결법에는 무엇이 있는지 파악해보기로 하자.

 

 

- 다중공선성

다중공선성(multicollinearity)이란 독립변수(설명변수)들간의 강한 상관관계를 뜻한다.

 

여기서 우리는 독립변수라는 말에 주목해보자.

회귀분석은 설명변수(독립변수)와 종속변수 사이의 관계를 파악하기 위해 실행하는 분석이다. 여기서 흔히 설명변수를 독립변수라고 일컫는데에는 이유가 있다. 바로 회귀분석의 전제 조건에 '설명변수들은 서로 독립적이다'라는 조건이 있기 때문이다. 설명변수들이 서로 독립적이라는 가정이 성립되어야, 회귀계수의 추정이 보다 더 정확해진다. 이러한 이유 때문에 회귀분석에서의 설명변수는 독립변수라고도 일컫는다.

 

회귀분석 과정에서 설명변수간에 상관관계가 존재하여 독립성이 의심되는 경우, 다중공선성이 있느냐 없느냐를 판단하면 된다.

 

 

 

 

- 다중공선성 진단

다중공선성을 진단하는 방법은 아래와 같다.

 

Step 1.

회귀분석의 적합도 검정을 시행한 후, 회귀식이 표본을 얼마나 잘 설명하는지에 대한 지표인 결정계수 $R^2$을 구한다.

 

Step 2.

결정계수 $R^2$값이 높아 회귀식의 설명력이 높다고 판단되지만, 각 독립변수의 $P-value$값이 커서 독립변수가 유의하지 않을 때가 있을 수 있다. 이런 경우 독립변수들간의 높은 상관관계가 있다고 의심해볼 수 있다.

 

Step 3.

다중공선성이 의심되면, 우선 독립변수들간의 상관계수를 구한다.

 

Step 4.

다중공선성을 발견하기 위한 지표인 분산팽창요인(VIF, Variance Inflation Factor)을 계산하여 이 값이 보통 10을 넘으면 다중공선성의 문제가 있다고 판단한다.

 

VIF는 회귀계수의 분산이 얼마나 커지는지를 나타내며, 그 식은 아래와 같다. 식 안에 사용되는 $R_i^2$는 $X_i$를 $X_i$ 이외의 설명변수에 회귀시켰을 때의 결정계수를 의미한다. 이 결정계수의 값이 1과 가까워지게 되면, VIF값도 커져 다중공선성이 존재할 가능성이 높아지게 된다.

 

$VIF_i = \frac{1}{1-R_i^2}$

 

 

 

 

 

- 다중공선성 해결법

다중공선성을 해결하는데는 아래와 같은 방법이 있다. 

 

1. 상관관계가 높은 독립변수를 제거한다.

다중공선성 문제를 일으키는 변수를 제외시킨다. 이 때, 일반적으로 다중공선성의 문제를 일으키는 변수 중 종속변수와 상관관계가 높은 독립변수를 남겨둔다. 하지만 회귀식에 사용되는 독립변수의 수가 적다면, 변수 제거의 방법은 좋은 방법이 아니니 아래의 해결법을 고려해보는 것이 좋다.

 

 

2. 변수를 변형시키거나 새로운 관측치를 이용한다.

변수를 변형시켜 기존과 다른 변수인 파생변수를 만들거나, 아니면 새로운 관측치를 이용해 보는 것도 좋은 방법이다. 하지만 이 방법은 데이터의 근본적이고 현실적인 해결방법과는 거리가 멀다.

 

 

3. 주성분분석(PCA, Principle Component Analysis) 방법을 이용하여 설명력이 높은 변수를 선택한다.

주성분분석에 관한 자세한 내용은 나중 포스팅에서 다시 설명하겠지만, 기본적인 틀이라도 짚고 넘어가보겠다.

 

주성분분석(PCA, Principle Component Analysis)은 서로 연관 가능성이 있는 고차원 공간의 표본들을 연관성이 없는 저차원 공간의 표본으로 변환해주기 위한 분석이다. 이 줄어든 저차원 공간을 '주성분'이라 일컫는다. 분석을 통해 생성되는 주성분은 기존 변수의 개수보다 작거나 같을 수도 있다.

 

주성분분석을 통해 나오는 주성분들은 차례로 표본에 대한 설명력이 높다. 이를 이용하여 설명력이 높은 주성분들을 남겨두고 적은 설명력을 가지는 변수들을 제거할 수 있다.

 

하지만 일반 독립변수와는 달리 새로 생성된 주성분에 대한 해석이 용이하지 않다는 단점도 존재한다.

 

 

반응형

댓글