Random Variable 이란?
확률 변수(Random Variable)는 확률 실험의 결과에 수치를 할당하는 변수로, 즉, 확률적인 결과를 수치로 표현할 때 사용되는 개념이다.
보통 $X$로 표현되며, 실험 결과 $x$에 대한 확률 형태로 표현되는 것이 일반적이다.
$$P(X = x) = p$$
1. Discrete Random Variable (이산 확률 변수)
▶셀 수 있는 유한 개의 값이나 셀 수 있는 무한 개의 값(예를 들어, 자연수)을 가질 수 있는 확률 변수
예) 동전 던지기에서 앞면의 수, 주사위 던지기에서 나오는 눈의 수
주사위 던지기의 경우, 각 눈이 나올 확률이 $\frac{1}{6}$로 동일하기 때문에, 다음과 같이 확률 변수를 나타낼 수 있다.
$X$ | 1 | 2 | 3 | 4 | 5 | 6 |
$P(X=x)$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ |
$$P(X = x) = \frac{1}{6} \quad (x = 1,2,3,4,5,6)$$
이산 확률 변수의 특징은 위처럼 특정한 $x$ 값에 대한 확률이 존재한다는 점이다.
2. Continuous Random Variable (연속 확률 변수)
▶ 연속적인 값의 범위를 가질 수 있는 확률 변수. 이 경우, 변수가 취할 수 있는 값의 집합은 무한하며, 구간 내의 모든 값을 포함한다.
예) 측정된 온도, 사람의 키
연속 확률 변수의 경우, 이산 확률 변수와는 달리, 특정 $x$에 대한 확률을 측정할 수 없다. 즉,
$$P(X = x) = 0$$
이전에 필자는 이러한 질문을 접한 적 있다.
컵에 물이 가득 담겨 있다. 그리고 안에 있던 물을 양을 재지 않고 임의로 따라 버렸을 때, 컵에 물이 정확히 절반이 남아 있을 확률은 얼마인가?
이는 확률 변수의 개념을 잘 생각해보면 쉽게 답을 할 수 있는데, 컵에 남아있는 물의 양은 연속 확률 변수이다. 이를 0부터 1사이의 확률 변수 $X$로 표현하면, 물이 절반이 남아있을 확률은 $P(X = 0.5)$이다. 그런데 연속 확률 변수의 경우, 특정한 $x$값에서의 확률은 0이므로, 답은 0이 된다.
3. Discrete Probabiliy Distributions (이산 확률 분포)
3.1 Probability Mass Function (PMF : 확률 질량 함수)
확률질량함수(Probability Mass Function, PMF)는 이산 확률 변수의 값에 대한 확률을 설명하는 함수이다. 이산 확률 변수는 개별적이고 구별 가능한 값(예: 0, 1, 2, ...)을 가지며, 확률질량함수는 이러한 각각의 값에 확률을 할당한다.
확률질량함수 $p(x)$는 이산 확률 변수 $X$가 특정 값 $x$를 취할 확률을 나타낸다. 즉,
$$p(x) = P(X = x)$$
이때, 특정 사건 $x_i$가 취해질 확률을 $p_i$라 한다면, 확률질량함수는 다음과 같은 조건을 만족한다.
- $0\leq p \leq 1 \quad (i = 1,2,...,n)$
- $\sum_{i} p_i = 1$
전체 실험에 대한 확률 질량 함수는 보통 다음과 같이 표로 나타낸다.
3.2 Cumulative Distribution Function (CDF : 누적 분포 함수)
누적분포함수(Cumulative Distribution Function, CDF)는 확률변수 $가 어떤 값 $ 이하가 될 확률을 나타내는 함수이다.
$$F(x) = P(X \leq x)$$
이 때, $F(x)$를 구하려면, $x$ 이하의 값들에 대한 확률을 모두 단순히 더하기만 하면 된다.
$$P(X \leq 3) = P(X = 1) + P(X = 2) + P(X = 3)$$
누적분포함수의 성질
누적분포함수는 다음과 같은 중요한 성질을 가지고 있다:
- 비감소성: $x_{이면, $다. 즉, $가 증가함에 따라 $는 감소하지 않는다.
- 정규화: $F(\-infty)=0$, $. 즉, 확률변수 $가 아주 작은 값보다 작거나 같을 확률은 0이고, 아주 큰 값보다 작거나 같을 확률은 1이다.
- 우극한: $가 확률변수 $의 가능한 값으로 접근할 때, $의 값은 그 값에서의 확률로 접근한다.
4. Continuous Probabiliy Distributions (연속 확률 함수)
4.1 Probability Density Function (PDF : 확률 밀도 함수)
확률밀도함수(Probability Density Function, PDF)는 연속 확률 변수의 분포를 설명하는 함수로, 변수가 특정 구간 내의 값들을 취할 확률을 나타낸다. 확률밀도함수는 연속 확률 변수에 대해서만 정의되며, 이산 확률 변수의 경우는 확률질량함수(PMF)를 사용한다.
$$P(a \leq X \leq b) = \int_{a}^{b}f(x)dx$$
확률밀도함수의 성질
연속 확률 변수 $에 대한 확률밀도함수 $는 다음 조건을 만족한다.
- 비음수성: 모든 $x$에 대해, $f(x) \geq 0$
- $\int_{-\infty}^{\infty} f(x) = 1$
확률밀도함수 자체는 확률을 직접적으로 나타내지 않습니다. 대신, 확률밀도함수를 특정 구간 [에 대해 적분하면, 확률 변수 $가 그 구간 안에 있을 확률을 구할 수 있다. 이러한 성질 때문에, 확률밀도함수의 특정 지점에서의 값 $는 "확률"을 직접적으로 의미하지 않고, "확률의 밀도"를 의미한다.
4.2 Cumulative Distribution Function (CDF : 누적 분포 함수)
연속확률분포에 대해서도 누적 분포 함수를 정의할 수 있는데, 이산 확률 분포와는 살짝 다른 형태로 정의된다.
$$F(x) = P(X \leq x) = \int_{-\infty}^{x}f(t)dt$$
$$f(x) = \frac{\mathrm{d} F(x)}{\mathrm{d} x}$$
따라서, 어떤 사건의 값이 $a$와 $b$ 사이에서 일어날 확률은
$$P(a \leq x \leq b) = F(b) - F(a)$$
'Mathematics > 통계학' 카테고리의 다른 글
[확률] 4. Discrete Probability Distributions (0) | 2024.05.03 |
---|---|
[확률] 3. Expectations, Variances, Standard Deviations (기댓값, 분산, 표준편차) (0) | 2024.04.10 |
[확률] 1. Probability Theory (확률론) (0) | 2024.03.17 |