본문 바로가기
Data Analysis/Basic statistics

[기초통계] 확률분포, 이산확률분포 vs 연속확률분포, 이항분포(+베르누이분포), 포아송분포

by Dlearner 2019. 9. 6.
반응형

 

- 확률분포

확률분포(probability distribution)는 확률 변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다. 

 

 

 

 

- 확률분포의 중요성

확률분포를 활용하는데에 대한 의미와 중요성은 아래와 같다.

 

1. 확률변수가 일어날 확률을 전체 1.0(100%)인 분포로 표현하여 관측된 통계량이 일어날 확률을 계산할 수 있게 한다.

2. 확률변수의 특성(이산 or 연속) 및 분석특성(일표본, 차이검정 등)에 따라 이론적으로 성립된 확률분포를 기준으로 모집단의 추론 및 가설검정이 가능하다.

3. 각 확률분포는 변수와 분석의 특성에 맞는 최적의 이론적 모형을 의미한다.

4. 확률분포는 통계량을 파악하여 통계적 의사결정을 내리는 기준을 제시한다.

 

 

 

 

- 확률분포의 종류

 

이산 확률 분포

 

연속 확률 분포

이산 확률변수(확률 변수의 값을 셀 수 있는 경우)가 이루는 확률 분포  특징 연속 확률변수(확률 변수의 값을 셀 수 있는 경우)가 이루는 확률 분포 
주사위 던지기, 동전 던지기, 찬반 투표 등 예시 신장, 체중, 소득 등

이항분포

포아송분포

초기하분포

기하분포

분포 종류

정규분포

표준정규분포

t분포

$\chi ^2$분포

$F$분포

 

 

 

 

- 대표적인 이산확률분포 -

 

1. 이항분포(with 베르누이 분포)

 

+ 베르누이 분포

이항분포에서 베르누이 시행과 베르누이 분포를 알아야하는 이유는 베르누이 시행의 결과를 바탕으로 이항분포가 설명되기 때문이다.

 

베르누이 시행(Bernoulli's trials)은 서로 반대되는(배타적으로 일어나는) 사건이 일어나는 실험을 반복적으로 실행하는 것을 말한다. 이를 확률분포로 표현한 것이 베르누이 분포(Bernoulli's distribution)이다.

 

# 베르누이 분포는 평균($\mu$) = $p$ , 분산($\sigma^2$) =  $p(1-p)$ 를 갖는다.

 

 

- 이항분포

이항분포(binomial distribution)는 연속적인 베르누이 시행을 거쳐 나타나는 확률분포이다.

서로 독립된 베르누이 시행을 n회 반복할 때 성공한 횟수를 X라 하면, 성공한 X의 확률분포가 이항분포이며 아래와 같이 표현한다.

 

$X$ ~ $B(n,p)$

 

# 이항분포는 평균($\mu$) = $np$ , 분산($\sigma^2$) =  $np(1-p)$ 를 가진다.

 

 

 

 

2. 포아송 분포

포아송분포(poisson distribution)는 특정한 사건이 발생할 가능성이 매우 드문 경우의 확률분포를 나타낸다. 예를 들어 '야구 관람 중 홈런볼을 받을 횟수'를 확률로 표현할 경우, 포아송 분포로 표현할 수 있다.

 

포아송분포에서는 단위 시간당 평균 사건 발생 건수를 $\lambda$ (lambda)로 나타내며, 아래와 같이 표현한다.

 

$X$ ~ Poisson(λ)

 

포아송분포에서 중요한 점은, $\lambda$ 가 커질수록 포아송분포의 곡선이 점점 정규분포 곡선을 닮아간다는 것이다. 포아송분포의 평균이  $\lambda$ 이기 때문에 전체적인 의미에서 평균이 커진다는 것은 정규분포를 구성하게 된다는 의미가 된다.

 

# 포아송분포는 평균($\mu$) = $\lambda$ ,  분산($\sigma^2$)  $\lambda$ 를 가진다.

 

 

반응형

댓글