Mathematics/확률론

[확률] 4. Discrete Probability Distributions

테드리 2024. 5. 3. 23:22

확률분포란?

확률 변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다. 확률분포는 사건에 따라 다양한 형태로 나타날 수 있으며, 크게 이산확률분포와 연속확률분포로 나뉜다. 이산확률분포는 이산확률변수에 대한 확률분포이고, 연속확률분포는 연속확률변수에 대한 확률분포이다. 오늘은 이산확률분포에 대해 다뤄보도록 하겠다.

 

1. Binomial Distrubution (이항분포)

Bernouii Random Variables (베르누이 확률변수)

이항분포에 대해서 다루기 위해서는 우선 베르누이 확률변수에 대해 살펴볼 필요가 있다. 베르누이 확률변수란 결과값이 오직 0과 1, 즉 두 가지 결과값만 갖는 확률변수를 의미한다. 예를 들어, 동전 던지기의 경우를 생각해보자. 동전 던지기의 결과로는 앞면, 뒷면 두 가지 경우만 가능하므로 베르누이 확률변수라고 할 수 있다. 

 

베르누이 확률변수는 매개변수 $p$ 하나만 가지며, $p$는 사건 '1'이 일어날 확률, 즉 $P(X=1)$이다. 따라서 베르누이 확률 변수의 기댓값과 분산은 다음과 같다.

 

$$E(X) = p, \quad Var(x) = p(1-p)$$

 

Binomial Distribution (이항분포)

이제 이항분포에 대해 알아보자. 이항분포는 위의 베르누이 시행을 총 $n$번 반복했을 때의 확률변수 $X$의 분포이다. 이때, $n$번의 시행 각각은 독립이며, 각 시행에서 사건(사건 '1')이 발생할 확률은 $p$로 일정하다고 가정한다. 이 확률을 앞으로 '시행이 성공'할 확률이라고 부르겠다. 

 

그러면 이항분포의 확률변수 $X$는 총 성공 횟수가 되며, 다음과 같이 나타낼 수 있다.

$$X ~ B(n,p)$$

 

$B(n,p)$ 의 확률분포는 다음과 같은 확률분포를 가진다.

$$P(X = x) = \binom{n} {x} p^x(1-p)^{n-x} \quad (x = 0, 1, 2, \cdots, n)$$

 

기댓값과 분산은 각각 다음과 같이 표현된다.

$$E(X) = np, \quad Var(X) = np(1-p)$$

 

예를 들어, 주사위를 4번 던졌을 때, 3의 배수의 눈이 3번 나올 확률은 다음과 같으며,

$$P(X = 3) = \binom{4} {3} (\frac{1}{3})^3 (\frac{2}{3}) = \frac{8}{82}$$

3의 배수가 나올 횟수에 대한 기댓값과 분산을 구해보면,

$$E(X) = 4 \times \frac{1}{3} = \frac{4}{3}, \quad Var(X) = 4 \times \frac{1}{3} \times \frac{2}{3} = \frac{8}{9}$$

 

동전 던지기의 경우는 조금 특별한 이항분포인데, 앞, 뒷면이 나올 확률이 $\frac{1}{2}$로 동일하기 때문이다. 이러한 이항분포를 대칭 이항분포라고 하며, $p = 1-p = \frac{1}{2}$ 이므로,

 

$$B(n, 0.5) = \binom{n} {x} (\frac{1}{2})^{x}$$

$$E(X) = \frac{1}{2}n, \quad Var(X) = \frac{1}{4}n^2$$

 

2. Geometric Distributions (기하분포)

기하분포 역시 베르누이 시행을 기반으로 하는 확률분포이다. 기하분포의 확률변수는 첫 번째 성공이 일어나기까지의 총 시행 횟수를 의미한다. 즉, 5번 실패 끝에 6번째에 성공하면 $X = 6$이 되는 것이다. 

 

기하 분포의 경우, $P(X = x)$를 정의할 때, 총 $x-1$번의 실패와 마지막 시행 1번이 성공일 확률이므로, 

$$P(X = x) = (1-p)^{x-1}p$$

와 같이 표현할 수 있고, CDF는

$$P(X \leq x) = 1 - (1-p)^x$$

기하분포의 경우, 기댓값과 분산이 각각

$$E(X) = \frac{1}{p}, \quad Var(X) = \frac {1-p}{p^2}$$ 

로 나타낼 수 있다.

 

3. Negative Binomial Distributions (음이항분포)

음이항분포는 기하분포와 거의 유사하지만, 기하분포는 첫 번째 성공이 $x$번째 시행에 일어날 확률을 의미한다면, 음이항분포는 $r$번째 성공이 $x$번째 시행에 일어날 확률을 의미한다.

 

기하분포의 식을 조금 변형시키면 되는데, $x-1$번째 시행까지 $r-1$번의 성공이 발생하고, 마지막 $x$번째 시행에 $r$번째 성공이 발생할 확률이므로,

 

$$P(X = x) = \binom{x-1} {r-1} (1-p)^{x-r} p^r$$

 

$x = r, r+1, r+2, \cdots $일 때, 기댓값과 분산은 각각

$$E(X) = \frac{r}{p}, \quad Var(X) = \frac{r(1-p)}{p^2}$$

 

음이항 분포의 경우의 상황을 예시로 들자면, 양궁선수가 과녁을 맞추는데, 3번째 명중이 10번째 시도에 일어날 확률은 무엇인가 와 같은 문제가 될 수 있다.

 

4. HyperGeometric Distributions (초기하분포)

특정 종류의 아이템이 포함된 N 크기의 모집단이 특정 종류의 아이템이 r개 포함되어 있을 떄, 모집단에서 비복원 추출로 무작위로 추출된 n개 중 특정 종류의 아이템 개수 x의 분포를 나타낸다. 

$$ P(X = x)= \frac {\binom{r} {x} \times \binom {N - r} {n - x}} {\binom {N} {n}} \quad \text{max}(0, n + r - N) \leq x \leq \text{min}(n,r)$$

이때, 기댓값과 분산은 각각

$$ E(X) = \frac {nr} {N}, \quad Var(x) = (\frac{N-n}{N-1}) \times n \times \frac{r} {N} \times (1 - \frac{r}{N})$$

 

5. Poisson Distribution (포아송 분포)

아마 오늘 소개할 분포 중에 가장 중요한 분포 중 하나가 바로 이 포아송 분포라고 생각된다. 포아송 분포는 특정 시간 간격이나 공간에서 무작위로 발생하는 사건의 수에 대한 확률 분포를 다루기 때문에 현실에서 사건의 발생 빈도를 예측하고 분석하는 데 중요한 도구로 사용된다.

 

$\lambda$라는 파라미터를 이용해 표현되며, 단위 시간 당 발생하는 특정 사건의 횟수의 기댓값이기도 하다.

 

$$P(X = x ) = \frac {e^{-\lambda}  \lambda^x}{x!}$$

 

확률변수 $X$는 평균적으로 특정 사건이 단위 시간 당 $\lambda$번 발생한다고 할 때,  실제로 발생하는 사건의 총 횟수를 의미한다. 

포아송 분포는 서비스를 제공하는 매장의 입장에서 시간 당 서비스를 받는 손님의 수나 대기하는 손님의 수 등을 구할 때 사용되기도 해서 효율적인 시스템을 구축하는데 매우 유용하다.