서울시립대학교 인공지능학과 김정연 교수님의 확률 및 랜덤 프로세스 강의를 정리함을 미리 알립니다.
Chapter 04. 연속형 확률변수
<Outlines>
1. 확률밀도함수 및 확률분포함수
2. 기댓값
3, 연속형 확률분포
4. CDF의 역함수(inverse)
1. 확률밀도함수 및 확률분포함수
- 확률 분포 함수(누적 분포 함수) CDF

ch4.에서도 확률누적함수(누적분포함수) 즉 CDF에 대해 배웠다. 한 번 더 언급하는 것이다. CDF는 확률 변수 X가 특정 x에 대해 x이하일 모든 확률을 누적한 것이다.
이러한 CDF가 전체 구간에서 연속함수 인 경우, CDF Fx를 연속이라고 한다. # 당연한 소리..
'연속형' 확률 변수의 PDF(확률밀도함수)는 CDF를 미분해서 구한다. (뒤에서 더 언급할 것이다)
cf) 이산형 확률 변수에서 그 확률 변수의 확률을 나타내는 함수를 확률질량함수라고 불렀다. 이를 더해 특정 구간 혹은 전체의 확률을 구할 수 있었다.
연속형 확률 변수에 대한 그런 함수를 확률 밀도 함수라고 부른다. 하지만 확률밀도함수(PDF)는 각 함수값의 의미가 없다. 이를 구하고 싶은 구간에 대해 적분해서 확률을 구한다. (뒤에서 더 언급할 것이다.)

PDF를 적분해서 구간의 확률을 구한다. 이게 PDF의 의미이다.
이산형 확률 변수의 CDF의 차이점을 비교해보자. 이산확률 변수의 CDF는 다음과 같이 좌극한과 함수값이 같을 필요는 없다. 일반적인 경우 연속이 보장되지 않는다.(cf. P(X=0) = 1이면 연속이긴 하겠네..)

'이산형' 확률 변수의 확률질량함수, CDF
걍 그렇군. CDF은 확률을 누적함을 꼭 기억하자. X = 1일때 확률이 누적되어서 점프가 생겼다. right continuity를 꼭 만족해야함을 잊지 마라. 이거 그릴 줄 알아야한다.
- CDF의 필요 충분 조건 (이 함수가 CDF임을 보이는 방법) * 암기 * CDF의 필요 충분 조건은 무엇인가?
어떤 확률 변수이던 꼭 만족해야하는 필요 충분 조건에 대해 알아보겠다.

(1), (2)확률을 누적하기에, 특정 x가 -, + 무한대로 가면 위와 같은 특징을 갖는다.
(3) 또한 이산 확률 변수의 CDF에서 Right continuity를 언급한 적이 있다. 연속형 확률변수 CDF 또한 right continuity를 만족해야한다.
(4) 확률을 누적한다. CDF는 단조증가함수이다.
이 4가지 CDF의 필요충분조건을 꼭 암기하자. 어떤 함수가 주어지고 이게 CDF가 될 수 있냐 물어볼 수 있다. 이 때 (1)~(4) 조건을 만족하는지 확인하면 된다.
# 확률밀도함수(CDF)는 항상 연속이 아니다. Right continutiy만 항상 만족할 뿐이다.
- 확률 밀도 함수 (PDF)

'연속형' 확률 변수에 대해 PDF는 CDF를 미분해서 구할 수 있다. 또한 CDF는 PDF을 적분해서 구할 수있다. PDF는 이전의 모든 확률을 누적하므로 적분 구간은 - 무한대 부터 x까지 CDF를 적분해야한다.
받아들이자. 음 그렇군!
이산형 확률 변수일 때, 구간의 확률값(확률질량함수의 함수값)을 모두 더해서 구간의 확률을 구했잖아.
ex) P(X=1) + P(X=2)...
연속형 확률 변수일 때는 확률밀도함수의 함수값이 크게 의미를 가지지 않지만, 이를 적분해서 구간의 확률을 구할 수 있다! 이 차이를 알아야 한다.
- PDF(확률밀도함수)의 특징 (4가지 암기. 이를 만족 안하면 PDF가 아니다.)

어떤 구간이라고 해도 확률이 음수가 될 수 없다. 그렇기에 PDF는 0보다 크거나 같아야한다.
나머지는 읽어보면 계속 설명한 내용이다. 4가지를 암기하고 넘어가자.
cf) PDF가 무엇이냐? 물어보면 일단 CDF를 정의한다. Fx = P(X <= x). 이걸 미분한게 PDF라고 설명하면 된다.
<Example>

PDF 예제1
sol) 걍 CDF를 미분하면 PDF가 된다. 뒤에서 언급하겠지만 지수 분포의 PDF가 답으로 나온다.

PDF 예제2
sol) fx를 모든 구간에 대해 미분하면 1임을 사용해서 c를 구한다. (모든 확률의 합은 1이다). 구한 pdf를 구간 1~ 2에 대해 적분해서 확률을 구하면 된다. pdf의 성질을 이용하는 문제이다. 유형으로 알아두자.
# 중요 유형. PDF임을 보이라.

PDF 예제3
아까 CDF의 필요 충분 조건 4개를 배웠다. (두 끝값, right continuity, 단조증가함수) 이를 통해 CDF임을 보일 수 있다. 하지만 PDF에 대해서는 성질만을 배웠지.. 필요 충분 조건을 배우진 않았다.
# PDF임을 보이시오 -> 전 구간 적분했을 때, 값이 1임을 보이면 된다. ***
sol) 주어진 전 구간 (0, 3)에 대해 주어진 함수를 정적분했을 때 답이 1이 나오면 PDF임을 보인 것이다. PDF임을 보였으니 이를 통해 구간 확률을 구할 수 있다.
2. 기댓값
- 연속확률변수 기댓값 정의

이산형 변수와 달리 이것 또한 적분으로 구한다.
- 기댓값을 다르게 구하는 방법 3가지 ***암기*** # 기댓값을 다음과 같이 구할 수도 있다.

.이를 증명해보겠다. ***증명***

이 증명은 꼭 할줄 알아야한다.. 시험 대비.. 엄밀하진 않지만, 무한대 x 0 이런 부정형 나왔을 때.. 이 증명 내에서 수학적으로 까보면 0이 되는걸 암기해놓자. # 이런 방식으로도 기댓값을 구할 수 있구나! 의미를 잘 기억해라.
- 확률 변수 X의 함수 g(X)의 기댓값

이산형 확률 변수를 다룰 때 비슷한 걸 했다. 그 때 설명한거처럼 이름이 바뀐다고 태어날 확률이 달라지진 않는다. 확률 변수 X의 표현만 g(X)로 바뀐거다.
<Example>

sol) 걍 하면 된다.
- k-차 적률 # 걍 정의 암기 * 나올 것 같음..
X의 함수 g(X)가 X^k 이면 k차 적률 |X|^k 이면 절대 적률이다.
<예상문제>
Q. k-차 적률에 대해 정의하시오.
Q. k-차 절대 적률에 대해 정의하시오.

- 기댓값의 성질 3가지 **암기**

# 단, 성, 독립 -> 곱 따로 따로
cf) 위에서 배운 기댓값을 다른 방법으로 구하는 법과 구분해라. 꼭 암기해라.
- 코시 - 슈바르츠의 부등식 # 기댓값의 적용 |두 확률 변수 곱|의 기댓값의 최대값을 물어볼 때..

걍 그렇군..
- 분산 ***

이미 알고 있는 사실 앞에서 이미 언급했다.
기댓값은 선형성의 성질 갖고 있기에, E(ax +b) = aE(x) + b였다. (ch2에서 증명함.)
또한 두 확률 변수 X, Y 에 대해서 E(aX + bY) = aE(X) + bE(Y)이다. 그러면 분산은 어떨까?
# 분산의 성질 ㅈㅈ

이에 대한 증명은 다음과 같다. ***증명***

기댓값의 선형성을 통해 증명했다. X를 연속형 확률 변수로 보고 적분을 통해 할 수도 있다. (참고로 적분도 선형성을 갖는 연산이다.)
3. 연속형 확률분포 # 균 정 지 감 베
새롭게 보는 연속형 확률 분포들이 나올 것이다.
특이한 내용들을 알아놓고, 해당 확률 분포의 확률 변수의 의미와 기댓값과 분산은 꼭 암기해놓자.
- 1) 균일 분포(Uniform distribution) # 균

기댓값, 분산 암기
균일 분포의 연속형 확률 분포 X는 실 구간(a, b)상에 균일하게 분포되어 있는 실수 값 중 하나이다.
# 균등 확률 변수의 PDF, CDF



pdf, cdf 생긴거 잘 기억하자. cdf는 누적 확률이므로 구간이 끝나도 1로 유지된다.
CDF가 구간 길이의 역수를 기울기로 갖는다. 구간 시작점부터 확률이 누적되므로 x 절편은 시작 구간이다.
# 확률 변수 이상으로 가면 누적 확률 1을 유지한다.
<Example>

걍 그렇구나.. 각 확률이 일정해서 그렇다.
X는 구간이 0부터 1까지 시작하는 균등 확률 변수이므로, CDF는 기울기 (1-0)의 역수를 갖고, x절편이 0인 함수이다. Fx = x

CDF 가 Fx = x 임을 알았다. 이를 통해 구한다. 구간 이하인 경우는 0, 구간
균일 분포의 cdf, pdf를 그릴 줄 알아야 한다. 꼭 암기해놓자. (생각하면 쉽다. 생각을 하자..)
# Unif(0,1)의 성질
unif의 pdf와 cdf를 생각해봐라. 당연히 pdf는 [0, 1]에서 1을 함수값으로 갖는 상수함수이고 (fx = 1)
cdf는 시작 지점 0을 x편으로 하고 구간의 역수를 기울기로 갖는 Fx = x 일 것이다.
이게 바로 나와야한다. CDF의 역함수 파트에서 이걸 사용해서 다른 문제를 증명할 것이다.

- 2) 정규 분포(Normal distribution) # 정
# 정규 분포

너무 익숙한 친구..
# 표준 정규 분포(Standard normal distribution)

걍 너무 당연.. 평균 0, 분산이 1인 정규 분포를 표준 정규 분포라고 한다. 읽어보면 걍 당연하다.


걍 당연한 소리.. Z table은 누적 확률을 계산해놓은 표이다. 이게 주어지면 이걸 보고 차분하게 풀면 된다.
<Example>

sol) P(-0.5 < Z < 0.5)를 구하면 된다. 이걸 직관적으로 할 수 있어야 한다. 표준 편차 10을 정규화 했을 때 1 표준편차가 된다. 즉 원래의 5 표준편차는 정규화 했을 때 0.5 표준 편차가 될 것이다. 이를 통해 간단하게 구할 수 있다.
- 3) 지수 분포 # 지(균정지감베 중 3번 째..)

약간 뭔 느낌이냐면.. 이산형 확률 변수의 분포 중, 기하 분포를 생각하면 된다. 기하 분포의 확률 변수 X는 첫 성공까지의 총 시도 횟수를 의미한다. 지수 분포의 확률 변수 X는 특정 사건이 일어날 때 까지의 시간을 의미한다. 느낌만 봐라.. 거의 비슷하지 않냐..?
# 지수 분포의 Memoryless 성질 증명. ***암기***(cf. 감마 분포도 Memoryless 성질을 보였고, 증명했었다.)

Memoryless
지수분포가 Memoryless 성질을 보임을 증명해보겠다.

기하 분포의 Memoryless도 복습하고 넘어가자.
- 4) 감마 분포


그렇군.. 기댓값과 분산을 외우자. 걍 이런게 있다..
- 5) 베타 분포


그렇군.. 기댓값과 분산을 외우자. 걍 이런게 있다..
- Derived random variables ***증명***

나올 수 있다. 잘 알아두자.
해당 분포를 따르는 확률 변수가 X가 aX + b가 되었을 때(선형 변환), 어떻게 변하는지 알고 싶은 거다.
1) Unif(a, b)의 경우. 구간이 넓어진다.
2) 정규 분포의 경우, 선형 변환을 해도 정규 분포이다.
3) 지수 분포의 경우, 지수 분포가 되거나(b = 0), 아에 다른 새로운 분포가 된다(b가 0이 아닐 때..)
이에 대해 보이겠다. # CDF를 통해 어떤 분포를 따르는지 알 수 있다.

마지막을 잘 봐두자..
4. CDF의 역함수(inverse) # 정의, 정리의 증명을 잘 공부해놓자.
- 분위수(Quantile) ***정의 암기***

내가 몇 등인지 확인시켜준다.

x축 좌표가 p번째 분위수 이다. # 내가 아래서부터 몇 등인지..
- CDF의 역함수(inverse) (퀴즈 기출 CDF 역함수의 정의..)

정의를 꼭 암기하자.
## 매우 매우 중요.. 증명 유형.. ***상황 4개 모두 암기***
- CDF의 역함수에 U를 넣은 함수값을, 확률 변수로 하는 Y의 CDF.

문제 상황을 잘 기억해야한다. 확률 변수 Y가 무엇인지, 전제 조건이 무엇인지.

풀이 해석
- CDF가 역함수를 가질 때, CDF의 함수값을 확률 변수로 하는 Y의 CDF.

ㅊ
Y의 CDF가 y 임을 보였다. 즉 Y는 unif(0, 1)을 따른다.
# CDF가 같으면 분포가 같다. # Unif(0,1)의 cdf를 잘 기억하자.
우린 계속 X의 CDF가 역함수가 존재 할때, 특정 확률 변수 Y의 CDF가 무엇인지 보고 싶었다. 각 문제의 Y의 정의는 다르다. 문제 상황을 꼭 기억하고, 결론이 무엇이었나 잘 기억하라. (증명도 꼭.. 할 줄 알아야함..)
- 마코프(Markov) 부등식 # a이상의 확률의 상한 제시.

이를 증명하겠다. 해당 증명은 아래 체비셰프 부등식에도 쓰인다.

과정을 잘 기억하자. E(x)를 사용하는 것과, 쪼개기, 대소 비교 부분을 잘 보자
- 체비셰프 부등식 (마코프 부등식을 통해 증명).


'학부 수업 > 확률 및 랜덤 프로세스' 카테고리의 다른 글
ch5. Pair Of RVs(2) - 이변량 정규분포 (0) | 2024.05.13 |
---|---|
ch5. Pair Of RVs (0) | 2024.05.09 |
ch4-2. simulate RV (0) | 2024.05.09 |
Ch3. Discrete (0) | 2024.05.09 |
ch2. Probability (2) | 2024.05.09 |