본문 바로가기
Data Analysis/Basic statistics

[기초통계] 확률변수와 확률함수의 관계, 이산 확률변수 vs 연속 확률변수

by Dlearner 2019. 9. 4.
반응형

 

- 확률변수와 확률함수의 관계

 

확률변수(random variable)는 사건에 실수값을 대응시키고 그 값에 확률을 부여한 것이다. 다시 말해, 확률로 표현할 사건 및 이벤트를 정의하는 것으로 일어나는 사건의 경우의 수에 대해 숫자화 한 것을 뜻한다.

 

확률함수는 확률을 가진 어떤 사건이 일어날 확률을 통해 파라미터를 만들고, 이를 활용한 수학적 함수를 만드는 것을 뜻한다. 수학적으로 설명하면, 확률 P를 가진 어떤 사건이 n회 시행 중에서 x회 나타날 때, 확률변수 x와 이에 대응되는 P(x)의 관계를 나타낸 함수라 말할 수 있다.

 

이렇게 설명을 해도, 단순히 말로 설명하면 직관적으로 이해가 가지 않기 마련이다. 예시를 통한 설명은 아래에서 함께 진행하겠다.

 

 

 

[ 예시 - 동전을 두 번 던질 때, 앞면이 나오는 경우 ]

 

동전을 두 번 던졌을 때 발생되는 사건은 HH, HT, TH, TT로 총 4가지 이다.  => 사건

 

이 4가지 사건에 대해서 '앞면이 몇 번이 나올 것인가'에 대해 실수값을 대응시키는 작업이 바로 확률변수를 만드는 과정이다. HH는 2, HT,TH는 1, TT는 0을 반환시킨다.  => 확률변수

 

확률변수가 2인 경우는 전체 경우의 수의 1/4,

확률변수가 1인 경우는 전체 경우의 수의 2/4 = 1/2,

확률변수가 0인 경우는 전체 경우의 수의 1/4를 차지하게 된다.   => 확률

 

사건에 대해 확률변수를 만들고, 이에 대응하는 확률을 함수로서 표현하는 것이 바로 확률함수이다. => 확률함수

 

 

 

 

 

- 확률변수의 종류

확률변수는 이산 확률변수(discrete random variable)과 연속 확률변수(continuous random variable)로 구분할 수 있다.

 

1. 이산 확률변수

이산 확률변수는 수집된 데이터가 셀 수 있는 특정한 값들로 구성되거나 일정한 범위로 나타나는 경우를 뜻한다.

예) 주사위를 3번 던질 때 1이 몇번 나오는가

 

2. 연속 확률변수

연속 확률변수는 변수가 연속적인 숫자이거나 무한한 경우와 같이 셀 수 없는 경우를 뜻한다.

예) 각 반별 학생의 평균 키

 

 

 

 

- 이산 확률변수와 연속 확률변수의 차이점

이산 확률변수와 연속 확률변수의 가장 큰 차이점은, P(X=x)의 형태로 확률을 표현할 수 있느냐 없느냐의 차이이다.

 

이산 확률변수의 경우 위의 예시처럼 P(X=2) = 1/4 의 형태로 확률을 표현할 수 있다. 이산 확률변수가 대응되는 확률 값들의 관계를 우리는 확률 질량 함수(PMF, probability mass function)라고 일컫는다.

 

 

하지만 연속 확률변수의 경우는 연속적인 숫자이기 때문에 일정 범위를 정하고 그 범위를 확률로써 표현해야 한다. 이 때, 연속 확률변수는 확률분포함수 f(x)를 도입하며, f(x)를 a에서 b까지 적분함으로써 확률변수의 값이 a와 b 사이에 있을 확률을 구한다. 연속 확률변수의 확률값을 구할 때 도입되는 확률분포함수가 바로 확률 밀도 함수(PDF, probability density function)이다.

 

 

 

 

반응형

댓글