Mathematics/확률론

[확률] 3. Expectations, Variances, Standard Deviations (기댓값, 분산, 표준편차)

테드리 2024. 4. 10. 17:46

1. Expectations (평균, 기댓값)

1.1 Expectations of Discrete Random Variables

지난 포스팅에서 이산확률변수에 대해 알아보았다. 이산확률변수란 확률변수가 연속적이지 않은 값을 가질 때 그 확률변수를 이산확률변수라고 한다. 주사위를 던질 때 나오는 눈의 개수나 동전 던지기의 결과를 예로 들었었다.

변량 $x_1$ $x_2$ $x_3$ ...... $x_n$
확률 $p_1$ $p_2$ $p_3$ ...... $p_n$

 

위와 같이 이산확률 변수에 대한 확률질량함수를 나타내면 $P(X = x_i) = p_i$였고, 이 확률변수들에 대한 기댓값은 각 변량에 확률을 곱해서 가중합한 결과로 나타내진다.

 

$$E(X) = p_1x_1 + p_2x_2 + \cdots +p_nx_n = \sum_{i = 1}^{n} p_ix_i$$

 

이 때, $E(x)$는 어떤 확률을 가진 사건을 무한히 반복했을 경우 얻을 수 있는 값의 평균으로써, 확률변수의 '평균'이다.

 

예를 들어 다음과 같은 확률 질량함수가 있다고 해보자.

변량 0 1 2 3
확률 $\frac{1}{10}$ $\frac{4}{10}$ $\frac{2}{10}$ $\frac{3}{10}$

 

 

1.2. Expectations of Continuous Random Variables

이산확률변수가 확률 질량함수를 갖는다면 연속확률변수는 확률밀도함수를 갖는다. 확률질량함수가 아니라 확률밀도함수라고 불리는 이유는 이산확률변수와 달리 연속적인 값을 갖는 변수에 대해서는 특정한 값에 대한 확률을 정의할 수 없기 때문에, 확률변수가 특정 구간 [a,b] 사이에 위치할 확률로 표현되기 때문이다.

 

확률변수 $X$에 대한 확률밀도함수 $f(x)$에서 기댓값은 아래와 같이 표현된다.

 

$$E(x) = \int xf(x) dx$$

 

어떤 확률변수 x가 a와 b 사이에서 변화할 때, 확률 변수 x에 대한 기댓값은

 

$$E(x) = \int_{a}^{b} xf(x) dx$$

 

 

2. Variances (분산) 

분산은 확률변수들이 평균을 기준으로 얼마나 퍼져 있는지를 나타내는 통계량으로, 분산이 클수록 확률 변수들이 더 다양하게 분포해 있음을 의미한다. 분산을 계산할 때는 '편차'라는 개념을 이용한다. '편차'란 확률변수가 가지는 값에서 평균을 뺀 값을 의미하고, 분산은 편차들의 제곱합의 기댓값으로 계산된다.

 

$$\text{Var}(x) = E[(X-E(X))^2]$$

 

이를 정리하면 다음과 같이 쉽게 구할 수 있는 식이 유도된다.

 

$$\begin{align}
\text{Var}(X) &= E[(X - E(X))^2] \\
&= E[X^2 - 2XE(X) + (E(X))^2] \\
&= E[X^2] - 2E[X]E[X] + E[(E(X))^2] \\
&= E[X^2] - 2(E[X])^2 + (E[X])^2 \\
&= E[X^2] - (E[X])^2
\end{align}$$

 

좌: 평균이 같고 분산이 다른 두 확률분포

우: 분산이 같고 평균이 다른 두 확률분포

 

 

3. Standard Deviation (표준편차)

표준편차는 분산과 마찬가지로 데이터의 산포도를 나타내는 척도 중 하나로, 분산의 양의 제곱근과 같다. 보통 분산을 표현할 때, $\text{Var}(X) = \sigma^2$로 표현되므로, 표준편차는 $\sigma$로 나타내진다.

 

그런데 분산이 이미 있는데, 표준편차를 왜 사용하지? 라는 의문이 들 수 있는데, 표준편차를 사용하는 주된 이유는 원래 데이터의 단위와 같기 때문이다. 분산은 편차의 제곱의 평균으로 계산되기 때문에, 원래 데이터의 단위의 제곱으로 표현된다.

 

하지만 표준편차는 분산에 제곱근을 취함으로써 원래 데이터의 단위와 동일하게 만들어주기 때문에, 데이터의 산포도를 표현할 때는 분산보다는 표준편차를 더 많이 쓰는 편이다.

$$ \sigma (\text{Standard Deviation})  = \sqrt {\text{Var}(X)}$$

 

 

4. Covariance and Correlation (공분산과 상관계수)

4.1. Covariance (공분산)

공분산은 2개의 확률변수의 상호 변동성을 보여주는 값이다. 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양수의 공분산을 가진다. 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값이 하강하는 선형 상관성을 보인다면 공분산의 값은 음수가 된다. 

 

$$\text{Cov}(X, Y) = E((X-E(X)(Y-E(Y)) = E(XY) - E(X)E(Y)$$

 

이 때, 만약, X, Y가 독립이라면 $E(XY) = E(X)E(Y)$가 되므로 공분산은 0이 된다. 즉 두 확률변수 X,Y간의 관계성이 약할수록 공분산은 0에 가까워진다.

 

4.2. Correlation (상관계수)

상관계수는 두 변수 간의 선형적 관계의 강도와 방향을 표준화하여 나타낸다. 상관계수는 -1과 1사이의 값을 갖기 때문에, 두 변수간의 방향성만 표현할 수 있는 공분산과 달리, 그 방향성의 강도까지 표현이 가능하다.

 

$$\text{Corr}(X,Y) = \frac{\text{Cov}(X,Y)}{\sqrt {\text{Var}(X)\text{Var}(Y)}}$$

 

만약 상관계수가 음의 값을 갖는다면, 두 변수는 음의 상관관계를, 양의 값을 갖는다면 양의 상관관계를 갖는다고 말한다. 만약 상관계수가 0이면, 두 변수 간의 상관성이 없다는 것을 의미한다.

 

 

5. Linear Combinations of RVs (확률변수의 선형성)

1) $Y = aX + b$일 때,

  • $E(Y) = aE(X) + b$
  • $\text{Var}(Y) = a^2\text{Var}(X)$

2) 두 확률 변수 $X_1$, $X_2$에 대해,

  • $E(X_1 + X_2) = E(X_1) + E(X_2)$
  • $\text{Var}(X_1 + X_2) = \text{Var}(X_1) + \text{Var}(X_2) + \text{Cov}(X_1, X_2)$
    • 만약 $X_1$, $X_2$가 독립이라면, Cov = 0 이 되므로 $\text{Var}(X_1 + X_2) = \text{Var}(X_1) + \text{Var}(X_2)$

3) 독립인 확률변수 $X_1, X_2, \cdots , X_n$에 대해, 각각이 평균이 $\mu$이고 분산이 $\sigma^2$라면,

  • $\bar{X} = \frac{X_1 + X_2 + \cdots + X_n}{n}$
  • $E(\bar{X}) = \mu$
  • $\text{Var}(\bar{X}) = frac{\sigma^2}{n}$