학부 수업/확률 및 랜덤 프로세스

ch7. Sum of Random Variables

Dogun Kim 2024. 6. 10. 03:58

서울시립대학교 인공지능학과 김정연 교수님의 확률 및 랜덤 프로세스 강의를 정리함을 미리 알립니다.

 

Chapter 07. 확률 변수의 합

 

<Outlines>

1. 확률변수의 합

2. 수렴의 종류

3. 중심극한정리

 

1. 확률변수의 합

  • 확률 변수의 합

말 그대로 확률 변수들의 합이다. 확률 변수의 수열을 놓고, 그들의 합을 확률 변수의 합이라고 한다.

기댓값과 분산은 다음과 같다.

기댓값의 선형성에 의해 자명하다. 분산은 공분산이 추가되는 것을 잊으면 안된다.

 

 

 

  • 독립 확률 변수의 합

확률 변수 합을 구성하는 확률 변수들이 i.i.d라면, 서로 독립이고 같은 분포에서 왔다. 

즉 같은 MGF를 가지므로, 위와 같은 식이 성립된다. 

 

ch6에서 i.i.d가 아니지만 독립인 확률 변수 합의 MGF를 다룬 적이 있다. 이를 다시 한 번 확인하면 다음과 같다.

각 확률 변수가 독립이라 각 MGF의 곱으로 쪼개지긴 했지만, i.i.d가 아니기에, X1~Xn는 같은  분포를 갖는다 볼 수 없다. 

그렇기에 각 확률 변수의 MGF의 곱으로만 표현이 된다.

(cf. X, Y가 독립이면  E(XY) = E(X)E(Y) 해당 성질을 사용해서 각 MGF의 곱으로 나뉜 것이다. ) 

 

 

<Example. 독립 확률 변수 합의 MGF>

X1 ~Xn은 Geo(p)를 따르는 random sample인 것이다
그냥 차분하게 풀면 된다. 오른쪽 식은 기하 분포의 MGF를 계산한 것이다.

 

ch6 - (2) 마지막 부분에서, 확률 벡터에 대한 결합 MGF를 구한 적이 있다. 이 때, 확률 변수의 수(확률 벡터의 원소들)에 맞게 MGF의 변수들이 할당되어야 했다. ch7에서는 i,i.d가 도입된 것이다. 이때는 MGF의 변수를 하나로 통일해도 된다. 한 모집단의 분포를 따르기 떄문이다. 

 

 

  • 확률 변수 난수의 합 *암기

X1~Xn은 i.i.d 확률변수이므로,  SN은 독립 확률 변수의 합일 것이다.

X1~Xn과 독립인 난수 N에 대한 확률 변수의 합이다. (N은 여기서 당연히 1 이상의 자연수일 것이다.)

그냥 이렇게 구하는 구나, 하고 공식을 외우고 넘어간다. E(SN) =  E(N)*E(X1)이다.

 

 


 

 

2. 수렴의 종류

확률변수열 {Xn}에 대한 4가지 수렴을 공부할 것이다. 이 4가지의 수렴은 다음과 같은 관계를 갖는다.

Almost Sure Convergence가 성립하면, Mean Convergence를 제외한 모든 수렴을 만족한다.

아래 공부를 마친 후, 위 관계를 다시 한 번 봐야 한다.

 

  • 확률 1 수렴 = (Convergence with probability one, Almost sure convergence)

거의 확실 수렴이라고 불리는 수렴이다. 정의는 다음과 같다.

확률 1 수렴(거의 확실 수렴) 정의

확률 1 수렴을 보이기 위해서는 모든 Sample space에 대해 n이 무한대로 갈 때, Xn(s)과 X(s)가 같을 확률이 1임을 보인다.

다음 예시를 풀면서 익혀보자.

 

<Example. 확률 1 수렴 >

n이 무한대로 갈 때, 모든 표본공간 S = [0, 1]에 대해 Xn(s) = X(s)이다. 즉 다음과 같은 수식을 만족한다.

이를 통해 확률 1 수렴을 보였다. 

 

 

 

  • 확률 수렴 (convergence with probability)

확률 1 수렴과 구분해야 한다.

Xn과 X가 완전히 같지는 않고, 입실론 보다 작은 차이(틈새)가 있다고 생각하면 쉽게 외울 수 있다.  

즉, 입실론보다 크거나 같은 틈새를 가질 확률은 0이 되어야 한다.

임의의 양수 입실론 조건을 꼭 달아줘야 한다. 입실론이 양수 이므로, 차이를 계산할 때 꼭 절대값이 필요하다.

확률 수렴을 보이기 위해서는, 확률 1 수렴과 다른 풀이가 필요하다.

확률 변수 자체가 아닌, 분포(cdf, pdf)에 대해 접근 해야한다. 또한 어떤 확률 변수(X = ?)로 확률 수렴하는지 파악한다.

 

<Example. 확률 수렴> *분포를 알 때

평균이 1/n인 지수 분포는 Xn ~ Exp(n), fx = n*e^(-nx) 이다.

cf) X = 0, Xn은 지수 분포를 따르므로, 0보다 크거나 같은 양수이다. 그렇기에 절대값이 풀린 것이다.

정의를 쓰고, 분포에 접근해서 문제를 풀었다.

 

 

** <Example2. 확률 수렴> **분포를 모를 때

분포에 접근했다. 하지만, Yn의 분포를 알지 못하기에 마코프, 체비셰프 부등식을 사용해 극한값을 구했다.

확률은 항상 0보다 크거나 같아야 하므로, 확률이 0보다 작거나 같음은 0임을 의미한다.  

 

두 예제를 자주 풀면서 고민해보자. 둘 다 분포 자체에 접근했지만, example1과 달리 2는 분포를 알지 못한다.

그렇기에 마코프, 체비셰프 부등식을 사용해 우회하여 값을 구할 수 있다.

 

마코프 부등식
체비셰프 부등식

 

 

  • 분포 수렴 (convergence in distribution)

3번 째 수렴 종류인 분포 수렴이다. 4가지의 수렴 중 가장 약한 조건이다.

정의를 일단 외우고 이 또한 문제를 풀면서 감을 익히는 것이 좋다. 분포 자체(pdf, cdf)에 대해 n을 무한대로 보내야한다.

 

<Example1. 분포 수렴 CDF를 보는 경우>

이를 증명해보자.

그냥 쉽게 말하면.. n이 무한대로 보냈을 때, Yn의 pdf나 cdf가 Exp(λ)의 pdf, cdf와 동일함을 보이면 된다.

Yn에 대한 정보가 없으므로, Yn과 관련된 Xn의 pdf나 cdf를 구한 후, 식 조작을 통해 Yn의 분포를 알아보겠다.

풀이. Yn이 지수 분포에 분포 수렴함을 보였다.

Yn의 cdf를 구한 후, n이 무한대로 갈 때 어떤 분포를 보이는지 본다. 

 

cf) 기하 분포의 cdf 구한 과정

기하 분포 cdf 구하는 과정

 

 

 

<Example2. 분포 수렴 PDF를 보는 경우>

이 문제에서는 굳이 CDF에서 풀지말고, pdf에서 풀어도 된다. Xn의 pdf에서 n이 무한대로 갔을 때, Poisson(λ)의 pdf로 근사됨을 보이자.

풀이. Xn이 포아송 분포에 분포 수렴함을 보였다.

 

이러한 분포 수렴은 pdf와 cdf를 통해 접근하는 방법이 존재했다. 추가로 MGF를 통해 분포 수렴을 보일 수도 있다.

# 분포 수렴 - 적률 생성 함수

잘 읽어보자. MGF를 근사하는 것은 CDF를 근사하는 것과 같은 효과를 보인다.

MGF를 통해 위 두 예제를 다시 풀어보겠다.

Example1. 분포 수렴
n이 무한대로 갈 때, Yn의 MGF가 지수 분포의 MGF로 근사됨을 보였다.

해당 풀이는 앞 cdf, pdf 근사가 어렵거나.. (이럴 일이 있을까 싶긴 하다..) 혹은 문제에서 MGF를 통해 구하라고 요구할 때 사용하면 될 것이다. 앞 풀이에 비해 MGF를 통한 증명은 과정이 많다. (Exp의 MGF를 구해야하므로)

Example2. 분포 수렴
MGF를 통한 풀이

example1과 달리 Mxn의 MGF가 닫힌 형태가 존재하지 않고 시그마로 표현된다. 그냥 이렇게 냅두고 풀면 된다.

 

정리하면 분포 수렴을 보이기 위해 n이 무한대로 갈 때의 CDF/ PDF/ MGF를 관찰하는 3개의 풀이가 있었다.

 

 

 

  • 평균 수렴 (convergence in the r-th mean or in the L^r norm)

마지막 수렴의 종류이다. r 값에 따라 이름이 조금 다르다. (r = 2, 제곱 평균 수렴)

정의를 외우고, 문제를 풀면서 익히면 된다. (임의의 입실론 조건은 오타이다. 빼고 보면 된다.)

 

<Example. 평균 수렴>

평균 수렴은 간단하게 정의를 쓰면 됐다.

이제 다시 한 번 맨 위로 올라가 수렴들간의 관계를 확인하자.

 

 


 

 

3. 중심극한정리(CLT)

CLT를 공부하기 전에, 표본 평균과 대수의 법칙들을 먼저 볼 것이다.

 

우리는 이 ch에서는 X1~Xn은 iid 확률 변수로 둬야한다. 해당 확률 변수들의 합의 평균이 표본 평균이다.

표본 평균은 다음과 같다. 표본 평균은 bias가 없는 불편추정량이다. (ch8에서 자세하게 다루니 그렇구나 하자.)

추정량의 기댓값이 모수와 같은 경우를 불편추정량이라고 한다.

해당 표본 평균에 대한 두 법칙(SLLN, WLLN)이 존재한다. 두 개념을 외우고 넘어가자.

 

  • 대수의 강 법칙(Strong Law of Large Number, SLLN)

X1 ~ Xn이 iid이고 유한한 평균과 분산을 갖는다면, n이 무한대로 갈 때 표본 평균과 평균(모수)가 같을 확률이 1이 된다.

 

 

  • 대수의 약 법칙(Weak Law of Large Number)

약간 확률 수렴 느낌이다..

임의의 입실론에 대해서, 1 ~ Xn이 iid이고 유한한 평균과 분산을 갖는다면..

n이 무한대로 갈 때 표본 평균과 평균(모수)의 틈새가 입실론보다 작을 확률이 1이 된다. 

즉 모든 입실론에 대해서, 표본 평균과 평균의 틈새가 입실론보다 작은 것이다.

 

두 법칙을 잘 기억하고 있자.

 

 

  • 중심극한정리(CLT) **암기**

X1 ~ Xn이 iid이고 유한한 평균과 분산을 갖는다. 이 때, 위를 성립하는 것이 바로 중심극한정리이다. 

Sn은 표본 평균이 아닌 X1~Xn의 확률 변수 합이다.

 

위 식을 잘 보자. n을 무한대로 보냈을 때의 CDF가 표준 정규 분포의 CDF와 근사되는 지를 확인한다. 즉 이는 분포 수렴을 확인하는 것이다. (분포 수렴을 해결하기 위해서 pdf, cdf, MGF 어떤 걸 봐도 괜찮았다.)

 

MGF가 표준정규분포의 MGF로 근사됨을 보여 CLT를 증명하겠다(분포 수렴을 보인다). **중요 암기**

1. iid 확률 변수 합의 MGF를 다시 보고 오자. Step2를 이해할 수 있을 것이다.

해당 과정은 외우는 방법밖에 없는 것 같다.. 과정을 자주 써보고 외우자. ㅜ

n이 무한대로 갈 때, Zn의 MGF가 표준 정규 분포의 MGF로 근사됨을 보였다. 이를 통해 CLT를 증명했다.

 

cf) 정규 분포, 표준 정규 분포의 MGF

이 정도는 외워놓고 있어야한다. 계산이 생각보다 어렵다.
정규 분포 MGF 계산.. 나보다 GPT4o가 더 잘한다..

 

<Example1. CLT 관련 예제>

관심 대상이 총액의 합임을 주목해야한다.

 

<Example2. CLT 관련 예제>

CLT를 자주 보자.

'학부 수업 > 확률 및 랜덤 프로세스' 카테고리의 다른 글

ch9. Random Process  (0) 2024.06.11
ch8. Statistics  (0) 2024.06.10
ch6. Random Vector (2)  (2) 2024.06.05
ch6. Random Vector  (3) 2024.05.13
ch5. Pair Of RVs(2) - 이변량 정규분포  (0) 2024.05.13