- 표준화
표준화란 기준점을 동일하게 맞춰 조사자가 자료들을 쉽게 비교할 수 있도록 만드는 과정으로, 대표적인 표준화 분포인 표준정규분포(z분포)는 평균을 0, 표준편차를 1로 만든다.
표준화과 필요한 이유는 다음의 예시에서 설명이 가능하다.
예시) A가 영어 80점, 수학을 70점 맞았다고 했을 때, 영어를 더 잘했다고 판단할 수 있는가?
위의 예시에서 단순히 점수를 비교한다면 영어의 점수가 더 우위에 있다는 것을 알 수 있다. 하지만 반 평균 점수가 영어의 경우 90점, 수학의 경우 60점이라 한다면, 위의 판단이 틀렸다는 것을 알 수있다.
위의 판단의 오류를 방지하려면, 각 과목 점수에 대한 표준화를 실시하여 기준점을 동일하게 맞춘 후 비교하는 것이 바람직하다. 이것이 표준화가 필요한 이유이다.
- 표본의 분포
표본의 특성을 파악하기 위해서는 우선 표본의 분포를 자세히 알아보아야 한다. 표본분포 중 가장 단순하면서 많이 나타나는 형태가 정규분포이다.
정규분포는 어떤 사건이 일어난 빈도를 계산하여 그래프로 나타냈을 때 평균을 기준으로 좌우가 대칭되는 분포를 칭한다.
- 표본평균의 확률분포
z분포와 t분포는 모두 평균과 관련된 분포이다.
z분포 ( 평균 = 0, 분산 = 1, 정규분포 )
표본의 개수가 충분할 때(30개 이상) 표준화 과정을 거친 정규분포를 표준정규분포(standard normal distribution) 혹은 z분포라고 한다.
z분포는 평균 = 0, 분산 = 1인 정규분포를 따른다.
$ z=\frac{X-\mu}{\sigma/\sqrt(n)} $
[ X = 측정치, μ = 평균, σ/(√n) = 표준오차 ]
t분포 ( 평균 = 0, 분산 > 1, 정규분포 )
표본의 개수가 충분하다면 z분포를 이용할 수 있겠지만, 표본이 충분하지 못한 경우(30개 이하)는 t분포를 사용한다. t분포는 표본이 충분하지 못하여 정규분포를 이루지 못할 가능성이 크기 때문에, 모집단은 정규분포를 이룬다는 가정이 필요하다.
위의 '모집단은 정규분포를 이룬다는 가정'이 있기 때문에 t분포는 평균 = 0, 분산 > 1 인 정규분포를 따른다.
$ t_{n-1}=\frac{X-\mu}{s/\sqrt(n)} $
[ X = 측정치, μ = 평균, s/(√n) = 표준오차, n-1 = 자유도 ]
z분포와 t분포의 관계
두 분포의 공식을 비교해보면 자유도 n과 n-1을 제외하고는 식이 동일한 것을 볼 수 있다. 즉 n이 무한으로 커지게 되면 두 분포는 동일한 분포가 됨을 알 수 있다.
- 표본분산의 확률분포
$\chi ^2$분포와 F분포는 모두 분산의 추론과 관련된 분포이다.
$\chi ^2$분포가 한 개의 (표본)분산을 추론한 분포라면, F분포는 두 개의 (표본)분산을 추론하는 분포라는 점에 차이가 있다.
$\chi ^2$분포
$\chi ^2$분포는 정규분포로부터 도출되는데, z분포의 제곱에 대한 분포이다. 그러므로 항상 0보다 큰 값을 가진다.
확률변수 $x_i$들이 표준정규분포(z분포)를 따르면서 독립적이라면, $x_i^2$들은 새로운 확률변수를 구성하게 되고, 이 분포를 자유도가 n인 $\chi ^2$분포라 한다.
$\chi ^2$분포는 주로 모분산의 추정이나 계수 값을 해석하는 데 사용된다.
$ \chi ^2 = \sum_{i=1}^{n}x_i^2 $
아래 그림은 자유도 k에 따른 $\chi ^2$분포 모양을 나타낸 그래프이다. 이는 즉, 표본의 개수(자유도)에 따라 각기 다른 분포를 나타내는 것을 뜻한다.
$F$분포
$F$분포는 두 개의 분산에 관한 추론으로, $F_{(\nu1,\nu2)}$으로 나타낸다. 이 때 $\nu_1$, $\nu_2$은 각각의 $\chi ^2$분포에 대한 분산을 의미한다. $\chi ^2$분포를 따르는 확률변수 $x_n$ 와 $y_m$이 각각 자유도 n과 m을 가진다면, $\frac{\nu_x}{\nu_y}$은 F분포를 따르게 된다.
분산이 같은 모집단에서 $x_n$, $y_m$ 만큼 표본을 구하고, 각각의 분산을
$ \nu_1 = \frac{s_1}{n-1} , \nu_2 = \frac{s_2}{m-1} $
이라 하면, $F=\frac{nu_x}{nu_y}$은 각 비율을 나타낸다. 그러면 $F$는 자유도 (n-1), (m-1)인 $F$분포를 나타낸다.
아래 그림은 자유도 d1과 d2에 따른 $F$분포 모양을 나타낸 그래프이다.
$\nu_1$와 $\nu_2$가 각각 같다면(등분산을 만족한다면) $F$분포는 1을 기준으로 값이 결정 된다. (아래의 회색 그래프) 또한 표본의 개수가 많아질수록 1과 가까운 분포를 나타낸다.
이러한 성질 때문에 $F$분포는 분산의 동일성 여부를 판단하는 수단으로 사용된다.
'Data Analysis > Basic statistics' 카테고리의 다른 글
[기초통계] 기술통계 vs 추론통계, 점추정 vs 구간추정, 신뢰수준, 신뢰구간 (0) | 2019.09.08 |
---|---|
[기초통계] 확률분포, 이산확률분포 vs 연속확률분포, 이항분포(+베르누이분포), 포아송분포 (0) | 2019.09.06 |
[기초통계] 확률변수와 확률함수의 관계, 이산 확률변수 vs 연속 확률변수 (0) | 2019.09.04 |
[기초통계] 표본분포, 표본평균의 오차, 중심극한정리, 표본의 개수 (0) | 2019.09.03 |
[기초 통계] 모집단, 모수와 통계량, 표본추출 방법 (0) | 2019.09.01 |
댓글