본문 바로가기
Data Analysis/Basic statistics

[기초통계] 확률(Probability) vs 우도(가능도,Likelihood)

by Dlearner 2019. 10. 10.
반응형

통계 공부를 하다보면 확률과 우도(가능도)에 대한 개념이 헷갈릴 때가 있다. 함께 정리하며 같이 개념을 바로잡아보자.

 

 

 

- 확률(Probability)

확률은 관측값 또는 관측 구간이 주어진 확률분포 안에서 얼마만큼 나타날 수 있는가에 대한 값이다. 앞 설명에서 중요한 포인트가 있다. 바로 '주어진 확률분포'가 있다는 뜻이다. 확률이란 주어진 확률 분포를 고정시켜 놓은 뒤, 관측치 또는 구간이 포함될 수치를 표현한 것이라 할 수 있다.

 

 

 

- 확률의 비교가 가능할까?

이산형 확률변수를 통해 확률을 구할 때에는 각 관측치(확률변수)에 대응되는 확률값이 있기 때문에, 특정한 관측치에 관해 확률값을 구할 수 있다. 따라서 특정 관측치가 일어날 확률을 구하고 그들끼리 비교하는 것이 어렵지 않다.

 

그렇다면 연속형 확률변수의 경우는 어떠할까?

아래는 '캐리어 무게(연속형 확률변수)가 20kg 이상 30kg 이하'일 확룔을 확률밀도함수(PDF)를 이용하여 나타낸 그래프이다. 연속형 확률변수에서 확률을 구할때 쓰는 개념은 확률밀도함수(Probability Density Function, PDF)이라는 것을 이전 포스팅에서 언급한 바 있다.

 

[ 예시 : 캐리어 무게가 20kg 이상 30kg 이하일 확률 ]

 

연속형 확률변수에서는 확률을 구할 때 일정한 구간을 정한 뒤, 확률함수의 그 넓이를 구하는 형태로 확률값을 구하게 된다. 왜냐하면, 이산형 확률변수와는 다르게 연속형 확률변수에서는 특정한 관측치에 관한 확률값이 0으로 측정이 되어 버리기 때문이다. 

 

이런 특징들 때문에 연속형 확률변수의 경우는, 특정 관측치가 일어날 가능성을 비교하기 어렵게 된다. 이 한계를 해결해 주는 개념이 바로 우도(가능도,Likelihood)이다.

 

 

 

 

- 우도(가능도,Likelihood)

우도는 연속형 확률변수에서의 확률과는 개념적으로 반대되는 지표라 할 수있다. 가능도란 어떤 특정한 값을 관측할 때, 이 관측치가 어떠한 확률분포에서 나왔는가에 관한 값이다.

 

개념에 대한 이해가 쉽지 않으므로 좀 더 깊게 살펴보자.

(우선 이산형 확률변수에 관해서는 특정 관측치에 관한 확률을 구할 수 있기 때문에, 확률과 우도의 개념적 차이는 없다는 것을 알아두자.)

 

확률밀도함수는 아래와 같은 모양의 그래프를 가지고 있으며, 이 밀도함수의 특정 구간의 넓이를 계산하여 확률을 얻는다. 연속형 확률변수의 특정한 값에 대한 확률은 모두 0이 된다.

 

우도는 이런 확률밀도함수가 나타내는 그래프의 y값을 뜻한다고 생각하면 된다. 특정한 관측치에 관해서 대응되는 확률밀도함수의 값이 높아진다면, 우도가 높아진다고 할 수 있다. 이렇게 특정한 관측치에 대응되는 확률밀도함수의 값을 비교함으로써, 어떤 확률밀도함수를 선택해야하는지에 대한 기준을 잡을 수 있다.

 

아래 예시를 보면 고정된 관측치는 30kg이고, 이에 대해서 각기 다른 확률밀도함수에 대한 우도를 구할 수 있다. 왼쪽 확률분포에서 관측치 30kg이 나올 확률이 0.2이며, 오른쪽 확률분포에서 관측치 30kg이 나올 확률이 0.3이다. 따라서 관측치 30kg의 경우, 오른쪽 확률밀도함수에서의 우도가 더 크다는 것을 알 수있다. 이런 방식으로 확률로는 비교할 수 없는 것을 우도를 사용함으로써 가능케 한다.

 

 

[ 예시 : 캐리어 무게가 30kg일 때의 우도(likelihood) ]

 

 

 

- 요약

확률(Probability) : 고정된 확률분포에서 어떠한 관측값이 나타나는지에 대한 확률

우도(가능도, Likelihood) : 고정된 관측값이 어떠한 확률분포에서 어느정도의 확률로 나타나는지에 대한 확률

 

 

 

반응형

댓글