- 가설과 가설검정
가설(hypothesis)이란 주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추측을 말한다.
통계학에서 모수를 추정하는 것도 추론이지만, '모수가 어떠할 것이다'라는 가설을 세우고 그 가정이 맞는지에 대한 확인 과정도 추론이라 할 수 있다. 후자의 경우를 가설검정이라고 하며, 가설검정은 주어진 유의수준 하에서 주장이나 추측이 일정 신뢰구간에 포함될지의 여부를 판단하는 것이다.
[ 가설검정의 절차 : 가설 수립 > 유의수준 결정 > 기각역 설정 > 통계량 계산 > 의사결정 ]
가설검정의 절차를 이해하며, 이에 필요한 개념들을 하나씩 익혀보도록 하자.
1. 가설 수립
가설검정의 첫번째 단계인 가설 수립 단계에서는, 귀무가설과 대립가설을 수립해야 한다.
- 귀무가설
귀무가설($H_0$, null hypothesis)은 일반적으로 믿어왔던 사실을 가설로 설정하는 것으로, 영가설이라고도 한다.
영가설이라고 하는 이유는, 연구를 하더라도 일반적으로 모두가 인정하고 받아들이는 사실이기 때문에 어떤 의미를 찾아내기 어렵다는 뜻으로 귀무가설에 대한 조사 자체는 의미가 없다고도 볼 수 있다.
- 대립가설
대립가설($H_1$, antihypothesis)은 공공연하게 사실로 받아들여진 현상에 대립되는 가설을 뜻하며, 연구가설이라고도 불린다.
귀무가설에 대립되는 가설이기에, 연구를 통한 대립가설의 조사는 의미가 있음을 알 수 있다.
2. 유의수준 결정
수립된 귀무가설과 대립가설 중 어떤 가설을 채택할 것인지 판단하는 유의수준 $\alpha$를 결정한다.
- 유의수준(+유의확률, p값)
통계학에서는 모수의 추정이 맞을 확률을 1-$\alpha$로 표시한다. 여기서 $\alpha$는 유의수준(significance level)으로, 조사에서 인정되는 오차의 수준을 뜻한다. 귀무가설을 기각하게 되는 최소의 유의수준을 유의확률(significance probability)라고 하며, 이는 확률(probability)로 표현되기 때문에 약자를 사용하여 $p$값($p-value$)이라고도 부른다.
- $p$값을 설명하는 다양한 시각
$p$값을 설명하는 설명은 아래와 같이 다양하게 존재한다. 해석은 다양하나, $p$값이 유의수준보다 작으면 귀무가설을 기각하고 대립가설을 채택한다는 기본 개념은 변하지 않는다.
1. 조사에서 인정되는 최소한의 오차의 수준
2. 가설검정에서 검정 통계량이 귀무가설을 기각하도록 나타날 확률
3. 검정통계량이 귀무가설을 지지하는 정도 (지지하는 정도가 허용가능한 오차의 수준 유의수준 보다 작으면 지지하는 정도가 충분하지 않으므로 귀무가설을 기각)
4. 제 1종 오류를 범할 확률
5. 어느 정도의 정확도로 귀무가설을 기각 할 것인지에 대한 지표
6. 귀무가설이 참인데도 불구하고, 대립가설을 채택하게 될 확률
7. 대립가설을 채택했는데 그것이 틀릴 확률
3. 기각역 설정
조사의 성격에 따라 양측검정을 할 것인지 단측검정을 할 것인지를 정하고, 이를 통해 기각역을 설정한다.
- 양측검정
양측검정은 조사하고자 하는 대립가설을 검정하여 귀무가설을 기각하고 대립가설을 채택하고자 하는 것이다. 설정한 유의수준을 기준으로 기각역과 채택역이 나눠지고, 양측검정에서는 기각역이 양쪽으로 나타나게 된다.
$H_0$ : $\mu = 500$
$H_1$ : $\mu \neq 500$
- 단측검정
단측검정은 양측검정과는 달리, 조사의 목적에 따라 음의 방향과 양의 방향 중 한 쪽 방향만 살펴보는 검정을 의미한다. 대립가설은 기준($\mu$)보다 많거나 적은 한 가지 측면으로만 검정하게 되므로 아래와 같이 나타낼 수 있다.
[좌측검정]
$H_0$ : $\mu = 500$
$H_1$ : $\mu < 500$
[우측검정]
$H_0$ : $\mu = 500$
$H_1$ : $\mu < 500$
4. 통계량의 계산
수집된 표본을 대상으로 조사에 필요한 통계량을 계산한 후 기각역과 비교한다.
5. 의사결정
기각역과 비교한 후에 귀무가설과 대립가설 중 어떤 가설을 채택할 것인지를 결정한다.
'Data Analysis > Basic statistics' 카테고리의 다른 글
[기초통계] 연관성 분석, 상관분석(공분산, 상관계수) (0) | 2019.09.14 |
---|---|
[기초통계] 분산분석(ANOVA) (0) | 2019.09.12 |
[기초통계] 표준편차 vs 표준오차 (0) | 2019.09.10 |
[기초통계] 기술통계 vs 추론통계, 점추정 vs 구간추정, 신뢰수준, 신뢰구간 (0) | 2019.09.08 |
[기초통계] 확률분포, 이산확률분포 vs 연속확률분포, 이항분포(+베르누이분포), 포아송분포 (0) | 2019.09.06 |
댓글