본문 바로가기
Data Analysis/Basic statistics

[기초통계] 연관성 분석, 상관분석(공분산, 상관계수)

by Dlearner 2019. 9. 14.
반응형

- 연관성 분석

연관성 분석(association analysis)는 조사 대상에서 수집한 자료의 척도를 기준으로 변수들간의 어떤 관계가 있는지 판단하기 위한 분석 방법이다. 척도를 기준으로 변수간의 연관성을 측정하기 때문에, 이에 따라 분석 방법도 달라진다.

 

 

구분 척도 분석 방법 기타 변수의 개입 여부
상관분석

등간척도

비율척도

편상관분석 O
피어슨 상관분석 X
서열척도 스피어만 서열 상관분석 -
교차분석 명목척도 교차분석 -

 

 

 

 

- 상관분석

연관성분석 방법 중에 가장 흔히 사용되는 상관분석에 대해 알아보려 한다. 일반적으로 상관분석이라 일컫는 분석은 위의 연관선 분석 표에 제시되어 있는 피어슨 상관분석을 뜻한다. 고로, 정확히 말하면 피어슨 상관분석에 대해 알아보려 하는 것이라 할 수 있다.

 

상관분석(correlation analysis)은 조사 목적에 맞게 구성된 변수들 간의 연관성을 분석하는 방법이다. 상관관계(correlation)은 상관분석을 통해 생성되는 지표로, 두 개의 변수를 기준으로 어느 정도의 연관성이 존재하는지를 나타내 준다. 상관관계는 두 변수의 분포를 파악하여, 이 분포들이 양의 방향과 음의 방향 중 어느 분포로 퍼져있는지에 대해 파악한다.

 

상관관계에 따른 산포도는 그래프 도표로 나타낼 수 있는데, 두 개의 변수를 x축, y축으로 구성하여 이들의 흩어진 정도를 아래와 같이 표시한다.

 

 

하지만 이렇게 산포도로만 흩어진 정도를 파악하면 정확한 지표로서 사용하기 힘들 수 있다. 이 때, 공분산과 상관계수로 흩어진 정도의 척도를 파악할 수 있다.

 

 

 

 

 

 

- 공분산

공분산(covariance)은 두 개의 확률변수에 대한 흩어짐의 정도가 동일한 뱡향인 양의 방향인지, 반대 방향인 음의 방향인지를 나타내는 수치이다. 즉 두 변수가 서로 변하는 정도를 수치로 나타낸 것이다.

 

공분산은 확률변수 X와 Y에 대한 흩어짐의 정도를 나타내는 분산을 각각 구하고, 이 각각 구한 분산에 대한 공통점을 나타내면 된다. 공분산은 $Cov(X,Y)$로 표현하며, 다음과 같이 구할 수 있다.

 

 

$Cov(X,Y) = \sum_{i=1}^{N}\frac{(X_i-\bar{X})(Y_i-\bar{Y})}{N}$

 

 

즉, 공분산은 X에 대한 평균편차와 Y에 대한 평균편차의 곱을 모두 합하여 총 고나측치의 개수를 나눈 값이다.

 

 

 

 

 

- 상관계수

상관계수(correlation coefficient)는 공분산을 표준화한 값이다.

공분산이라는 지표가 있음에도 불구하고 상관계수가 필요한 이유는, 공분산에서는 Scale(단위)이 표준화 되어있지 않기 때문에 서로 다른 Scale에 대한 비교가 어렵기 때문이다. 이런 공분산의 한계를 극복하기 위한 표준화가 필요하며, 표준화된 공분산 계수를 상관계수라고 한다.

 

상관계수를 구하는 방법은 아래와 같다.

 

$Corr(X,Y) = \frac{Cov(X,Y)}{\sqrt{\frac{\sum (X-\mu)^2}{N}*\frac{\sum (Y-\mu)^2}{N}}}$

 

=

 

$Corr(X,Y) = \frac{Cov(X,Y)}{\sigma_x*\sigma_y}$

 

 

 

- 상관계수의 특징

1. X와 Y가 서로 양의 상관관계를 가진다면, 상관계수는 0 < $Corr(X,Y)$ < 1의 값을 가진다.

2. X와 Y가 서로 음의 상관관계를 가진다면, 상관계수는 -1 < $Corr(X,Y)$ < 0의 값을 가진다.

3. X와 Y가 일정한 규칙이 없이 +값과 -값이 동시에 대응하면 상관계수는 0의 값을 가진다.

 

 

 

 

 

반응형

댓글