- 기술통계와 추론통계
기술통계 | 추론통계 |
표본으로부터 통계량을 구하고 통계량 간의 차이를 파악하는데 중점을 둔다.
|
표본을 통해 모집단의 성격을 파악하는 데 중점을 둔다. 특히 추론통계에서는 모수를 특정 수치나 수치의 범위로 표현한다. |
- 추정이란?
추정(estimation)의 사전적인 의미는 '정확하지는 않지만 이 정도면 될 것이라는 정도를 가늠하는 것'이라 표현된다.
이 '정도'를 가늠하는 방법에는 정확한 수치로 나타낼 수도 있고, 시작점과 종료점으로 표현할 수도 있다. 아래서 언급하겠지만 전자를 점추정, 후자를 구간추정의 방법이라 한다.
추정을 하는 과정에서 선택된 표본을 $x_1, x_2, x_3, ... , x_n$이라 할 때, 이를 대상으로 계산하여 구체적으로 도출된 통계량을 추정치(estimate)라고 한다. 이 때, $f(x)$ (단, $x = x_1, x_2, x_3, ... , x_n$)와 같이 추정치를 계산하기 위한 도출 함수를 추정량(estimator)이라 한다.
- 추정의 종류 : 점추정
점추정(point estimation)은 모수를 특정한 수치로 추정하는 방법이다.
점추정을 할 때 사용하는 점추정량의 바람직한 조건은 아래와 같다.
1. 평균 오차 제곱 : 평균 오차 제곱(MSE)이 최소값이어야 한다.
2. 불편성 : 추정량이 모수와 같아야 한다.
3. 일치성 : 표본의 크기가 모집단 규모에 근접할 수록 오차가 작아진다.
4. 유효성 : 추정량의 분산이 최소값이어야 한다.
5. 충분성 : 표본이 모집단의 대표성을 가져야 한다.
- 추정의 종류 : 구간추정
점추정에는 오차가 존재하므로 신뢰도 문제가 발생하기 마련이다. 이를 보완하기 위해 나타난 개념이 구간추정(interval estimation)이다. 구간추정(interval estimation)은 신뢰도를 제시하면서 상한값과 하한값으로 모수를 추정하는 방법이다.
신뢰도를 제시할 때 사용하는 척도로 신뢰수준(confidence level)을 사용하는데, 신뢰수준은 추정값이 존재하는 구간에 모수가 포함될 확률을 말한다.
신뢰수준(보통 95%, 99% 사용)은 100 X (1 - α)% 로 계산하는데, 여기에서 α는 조사에서 인정되는 오차의 수준을 말하며 이를 유의수준(significant level)이라고도 부른다.
구간추정의 예 : 신뢰구간
신뢰구간(confidence interval)은 상한값과 하한값의 구간으로 표시되며, 신뢰수준을 기준으로 추정된 점으로부터 음(-)의 방향과 양(+)의 방향으로 하한과 상한을 표시한다.
신뢰도가 높을수록 신뢰구간이 넓어져 추정값이 존재하는 구간에 모수가 포함될 확률이 높아진다. 이 뜻은 신뢰도가 높을수록 추정값을 커버하는 신뢰구간의 폭이 넓어짐을 의미한다.
신뢰구간이 좁을수록 조사자는 더 의미 있는 결과를 제시할 수 있는 것처럼 보이지만, 신뢰수준이 낮아지는 것을 감수해야 한다. 따라서 조사 상황에 맞는 신뢰수준을 선택해야 한다.
'Data Analysis > Basic statistics' 카테고리의 다른 글
[기초통계] 가설검정과 절차(가설,유의수준,기각역,양측검정,단측검정) (0) | 2019.09.11 |
---|---|
[기초통계] 표준편차 vs 표준오차 (0) | 2019.09.10 |
[기초통계] 확률분포, 이산확률분포 vs 연속확률분포, 이항분포(+베르누이분포), 포아송분포 (0) | 2019.09.06 |
[기초 통계] 표준화, 정규분포, z분포, t분포, 카이제곱분포, F분포 (0) | 2019.09.04 |
[기초통계] 확률변수와 확률함수의 관계, 이산 확률변수 vs 연속 확률변수 (0) | 2019.09.04 |
댓글