본문 바로가기
Data Analysis/Basic statistics

[기초통계] 연관성 분석, 교차분석(교차표, 적합도검정, 독립성검정)

by Dlearner 2019. 9. 15.
반응형

지난 포스팅에서는 연관성 분석에서 상관분석에 대해 알아보았다. 이번 포스팅에서는 연관성 분석 중 교차분석에 대해 알아보려 한다.

 

 

 

 

- 교차분석

저번 포스팅에서 정리했던 연관성 분석에 관한 표를 다시 가져와보았다. 교차분석은 아래의 표에서 정리한 연관성 분석의 종류 중 하나이다.

 

구분 척도 분석 방법 기타 변수의 개입 여부
상관분석

등간척도

비율척도

편상관분석 O
피어슨 상관분석 X
서열척도 스피어만 서열 상관분석 -
교차분석 명목척도 교차분석 -

 

교차분석(cross-tabulation analysis)은 '범주형'으로 구성된 자료들 간의 연관관계를 확인하기 위해 교차표를 만들어 관계를 확인하는 분석 방법을 말한다. 이 방법에서는 변수들의 빈도를 이용하여 연관성을 파악하는데, 이 때 검정통계량으로 카이제곱($\chi^2$) 통계량을 이용한다. 이 때문에 교차분석은 카이제곱($\chi^2$) 검정이라고도 불린다.

 

 

 

 

 

 

 

- 교차표

교차분석은 범주형 자료간의 빈도를 통해 연관성을 판단하기 때문에, 각 범주의 항목간 빈도를 나타내 비교하는 것이 중요하다. 이 때 필요한 개념이 교차표(cross-tabulation)이다. 교차표는 2개의 조사 요인에 대한 자료값을 각각 행과 열로 배열하여 교차되는 항목에 대한 빈도를 나타낸 표이다.

 

아래는 지역별 찬반여부에 관한 교차분석을 위한 교차표이다. 

 

교차표 지역 행의 합계
A (1) B (2) C (3)
찬반여부 찬성 (1) $n_{11}$ $n_{12}$ $n_{13}$ $n_{1j}$
반대 (2) $n_{21}$ $n_{22}$ $n_{23}$ $n_{2j}$
열의 합계 $n_{i1}$ $n_{i2}$ $n_{i3}$ $n$

 

이런 교차표를 활용하는 방법은 다음과 같다.

 

 

 

 

 

 

- 관측빈도와 기대빈도

아래는 위의 교차표에 임의의 값을 넣어본 예시로 관측빈도와 기대빈도를 설명해보려한다.

 

교차표 지역 행의 합계
A (1) B (2) C (3)
찬반여부 찬성 (1) 80 (61.71) 70 (77.14) 30 (41.14) 180
반대 (2) 40 (58.29) 80 (72.86) 50 (38.86) 170
열의 합계 120 150 80 350

 

교차표를 작성할 때에는 관측빈도와 기대빈도를 제시하여 작성해야 한다.

 

관측빈도(observed frequency, $O_{ij}$)는 실제로 수집된 데이터의 빈도를 뜻한다. 위의 예시에서는 빨간색 글씨로 나타낸 빈도가 지역 A에서 찬성 의견을 나타낸 사람의 관측빈도라 할 수 있다.

 

기대빈도(expected frequency, $E_{ij}$)는 전체 빈도 n에 대하여 행과 열의 합을 기준으로 보았을 때, 각 교차되는 셀에 기대될 수 있는 기대값을 뜻한다. 위의 예시에서는 노란색 글씨로 나타낸 빈도가 지역 A에서 찬성 의견을 나타낸 사람의 기대빈도를 뜻한다. 기대빈도 $E_{ij}$는 아래와 같이 계산한다.

 

$E_{ij} = \frac{n_{i.} \times n_{.j}}{n}$

 

위의 예시에서 지역 A에서의 찬성 의견을 나타낸 사람의 관측빈도는 80이며, 교차표를 활용해 기대빈도를 구하면 (180 * 120)/350 의 산식을 거친 61.71의 기대빈도를 구할 수 있는 것이다.

 

 

 

 

 

 

 

- 교차분석에서의 카이제곱 통계량

교차분석에서의 카이제곱($\chi^2$) 통계량은 위에서 언급한 관측빈도와 기대빈도 사이에 유의한 차이가 있는지를 확인하는 통계량으로 사용된다. 교차표에서의 관측빈도와 기대빈도 사이의 차이를 모두 고려하는데, 아래 식에서 차이를 제곱해주는 이유는 음수와 양수가 함께 존재되면 차이값이 상쇄되기 때문에 이를 방지하고자 함이다. 

 

카이제곱($\chi^2$) 통계량은 아래와 같이 계산한다.

 

$\chi^2 = \sum\frac{(O_{ij} - E_{ij})^2}{E_{ij}}$

 

 

카이제곱 검정은 범주형 변수를 대상으로 연관성을 판단하므로, 범주형 변수의 개수가 k라면 자유도는 k-1로 계산하게 된다. 위의 예시에서 지역을 변수라 하면 A,B,C 지역이 존재하므로 k=3이 되며, 자유도는 3-1인 2가 된다.

 

계산된 자유도 d.f(k-1)와 유의수준 $\alpha$를 기준으로 채택역과 기각역을 확인할 수 있다.

 

 

 

 

 

 

 

 

- 적합도 검정과 독립성 검정

위에서 교차분석을 하는데 필요한 개념들을 알아보았다. 이를 활용하여 교차분석을 하는데에는 두 가지 종류가 있으며 이를 표로 정리하면 다음과 같다.

 

 

  적합도 검정(goodness of fit test) 독립성 검정(independence test)
의미 한 범주형 변수를 대상으로 연구자가 가정한 분포를 따르는지에 대한 여부를 검정하는 방법

여러 범주형 변수를 대상으로 각 범주들이

독립적인지를 판단하는 검정 방법

(첫번째 변수의 값을 예측함에 있어

두번째 변수의 값은 영향을 주지 않고 무관함을 의미)

자유도 k-1

두 범주형 변수간의 독립성 검정일 경우

 

(R-1)X(C-1)

R : 행의 개수 , C : 열의 개수

 

 

 

 

 

반응형

댓글