서울시립대학교 인공지능학과 김정연 교수님의 확률 및 랜덤 프로세스 강의를 정리함을 미리 알립니다.
Ch3. 이산확률변수
<Outlines>
1. 확률변수의 정의
2. 기댓값
3. 이산형 확률분포
4. 조건확률질량함수
1. 확률변수의 정의
- 확률 변수

결과를 숫자로 맵핑한다고 생각하면 쉽다.

위 예시를 보자. 동전이 앞면이 3번 나온 경우는 X = 3으로 맵핑 (HHH)
앞면이 2번이 나온 경우는 X=2로 맵핑한다(HHT, HTH, THH). 이 때 X가 바로 확률 변수이다.
- 이산형(Discrete) 확률 변수
확률 변수 X의 범위가 유한이거나 가산 무한, 즉 # 셀 수 있을 때 이를 이산형 이라고 한다.
cf) ch2에서 표본 공간을 배울 때 이산형 표본 공간을 언급했다. 이산형 표본 공간도 셀 수 있는 표본 공간이다.
- 확률질량함수 (Probability mass function)

계속 개념에 대해 배우고 있다. 음 그렇군 하고 넘어가면 된다. 특정 확률 변수의 확률을 나타내는 함수이다.
ex) 위 맵핑에서, X = 0인 확률 Px(X = 0) = 1/8.

확률은 당연히 0보다 크거나 같고, 모든 경우의 수 확률의 합은 1이다.
계속 당연한거 이야기 하고 있다. 음 그렇군! 하고 넘어가면 된다. 확률 질량 함수가 이런거다 생각만 잘 하고 있자.
- 확률 분포 함수 = 누적 분포 함수 (cumulative distribution function CDF) **CDF**

이산형 확률 변수의 누적분포함수(확률분포함수)의 정의. 잘 알아두자.
뒤에서 매우 매우 자주 쓰므로, 잘 알아두자. 확률 분포 함수는 누적 분포 함수라고도 부르는데, 확률 변수 X가 주어진 점 x 이하인 모든 값을 가질 확률을 누적한다는 점에서 그렇다.
cf) '분포'가 들어가면 CDF구나.. 누적의 의미를 가지는 구나 생각하라. 용어가 헷갈릴 수 있으니 잘 정의하고 가라.
이제 확률 질량 함수와, 확률분포함수(누적분포함수)예시를 보겠다.
<Example>

이게 헷갈린다면 확률 분포 함수의 정의를 잘 생각해보자. Fx = P(X <= x)이다.
나중에 더 다루겠지만 확률 분포 함수(누적분포함수) CDF는 right continuity를 항상 만족해야한다.
(right continuity란 우극한 = 함수 값일 때를 말한다.)
(용어를 꼭 헷갈리지 말고 정의와 함께 외워둬라.)
2. 기댓값
- 기댓값
이산형 확률 변수의 기댓값은 다음과 같의 정의된다. Px는 이산형 변수 X의 확률질량함수이다.

이산형 확률 변수의 기댓값 정의.
<Example>

# 확률 변수 X의 함수 g(X)의 기댓값 (확률 변수만 바뀌고 확률은 변하지 않는다.)

포인트는 X를 g(X)에 넣어서 확률 변수 값이 바뀐다고 해도, 자체의 확률은 변하지 않는다는 것이다. 조금만 생각하면 이해할 수 있다. X가 g(X)를 통해 개명을 했다고 해도 X 태어날 확률은 같지 않은가?
<Example>

확률은 변하지 않는다. 잘 기억하자.
- 기댓값의 성질(1) - 선형성

기댓값 성질(1) - 선형성
기댓값의 정의를 통해 쉽게 증명할 수 있다. ***증명***

<Example>


기댓값의 성질을 통해 따로 따로 구할 수 있다.
- 분산과 표준 편차

정의 암기.
분산은 (X - 기댓값)의 제곱의 평균(기댓값)을 통해 구한다. 이를 쉽게 푸는 공식은 다음과 같다.

기댓값의 성질 선형성을 통해 증명한다. 결과를 암기하자.
제곱의 평균 - 평균의 제곱을 통해 분산을 구한다.
3. 이산형 확률분포
# 베 이 기 음 초 포. 6개의 이산형 확률 분포의 정의를 알고, 기댓값과 분산을 도출해보자.
- 1) 베르누이 분포(Bernoulli distribution) # 한 번 시행하는 동전 던지기

# 베르누이 분포의 기댓값, 분산 증명 ***증명***

- 2) 이항 분포(Binomial distribution) # 베르누이의 합으로 볼 수 있다.

이항 분포 X는 독립 베르누이 시행에서 구한 총 성공 횟수.
# 이항 분포의 기댓값, 분산 증명 ***증명*** Xi는 확률이 p인 베르누이 분포를 따른다.

이항 분포의 확률 변수를 베르누이 시행의 확률 변수의 합으로 표현하는 것이 포인트이다.
<Example>

X가 이항분포를 따르는 것을 알 수 있어야 한다.

cf) 이항 분포의 확률 변수 X를 베르누이 확률 변수의 합으로 볼 수 있는지 생각해보자.
이항 분포 확률 변수 X는 독립인 베르누이 시행을 했을 때, 총 성공한 횟수이다. 그렇기에 한 시도의 성공과 실패를 보여주는 베르누이 확률 변수의 n개의 합으로 표현할 수 있다.
ex) 3번 성공 = 실패 + 성공 + 실패 + 실패 + 성공 + 성공
- 3) 기하 분포(Geometric distribution) # 정의를 잘 봐두자.

개념을 잘 알고있다면, 확률질량함수는 쉽게 외울 수 있다. 생각해보면 당연하다.
i) 순서는 고정되어 있고 (실패,실패,실패,실패.......실패,실패,성공!)
ii) 각각의 확률은 성공은 p, 실패는 (1-p)이다.
iii) 기하 분포의 확률 변수 X는 첫 성공까지의 베르누이 실행 횟수이다.
이를 종합하면 확률질량함수를 구할 수 있다.
cf) 2)이항 분포, 3)기하 분포 모두 베르누이의 개념이 들어갔다.
이항 분포의 확률 변수X는 독립 베르누이 시행의 '성공 횟수의 합'으로 정의 되었고,
기하 분포의 확률 변수X는 독립 베르누이 시행의 '첫 성공까지의 시행 횟수'이다. 헷갈리지 말자.
- # 기하 분포의 기댓값, 분산 증명 ***증명*** 어렵다 과정을 잘 기억하자. 자주 회독하자.

<Example>

독립 베르누이 시행하는데 처음 성공때 까지의 시행 횟수가 확률 변수 X? 아 이건 보자마자 기하 분포다!!!

# 기하 분포의 Memoryless 증명 ***증명***
어느 시점에 시작하더라도, 첫 성공까지 가는데의 총 시행횟수는 같다는 것이다.
(쉽게 설명하면... 고등학교에 17살에 입학하던, 20살에 입학하던 시작 시점과 상관 없이 졸업은 3년이 걸린다. 이게 Memoryless이다..)


- 4) 음이항 분포 # 기하 분포의 합으로 볼 수 있다.

암기
확률질량함수는 음이항분포의 정의를 생각해보면 쉽다.
r번의 성공을 위해 x번 시도했을 때, 마지막 순서는 무조건 성공이어야한다. 이제 남은 자리 x-1개 중 r-1 성공 자리를 배정하고, 확률을 곱해주면 된다. x가 총 시행횟수임을 잊지말자.

cf) 각 분표의 확률 변수 정의를 헷갈리면 안된다.
이항 분포의 확률 변수X는 독립 베르누이 시행의 '성공 횟수의 합'으로 정의 되었고,
기하 분포의 확률 변수X는 독립 베르누이 시행의 '첫 성공까지의 시행 횟수'이다. 헷갈리지 말자.
음이항 분포의 확률 변수X는 독립 베르누이 시행의 r번 성공할 때까지의 시행횟수이다.
# 음이항 분포는 기하 분포의 합으로 볼 수 있다... 걍 암기하라.
# 음기하 분포의 기댓값, 분산 증명 ***증명***
Xi는 성공 확률이 p인 기하 분포를 따른다.

암기
<Example>

Tip) 문제 보고... 이거 뭔 분포 따르지? 이게 아니다. 그냥 하던데로 확률 문제 풀 듯이 풀어라.

- 5) 초기하 분포 # 주머니 비복원 추출

정의와 공식을 잘 알아두자.
# 음기하 분포의 기댓값, 분산 증명 ***증명*** (첫번 째 퀴즈 때 기출됨.. 또 나올까..?)

이미 나온거니까.. 시험 전에 한 번만 보자.. 혹시 모르니까....
<Example>

이 유형 잘 기억해놓자.
- 6) 포아송 분포 ex) 한 달 이내의 교통사고 횟수


# 포아송 분포의 기댓값, 분산 증명 ***증명*** (첫번 째 퀴즈 때 기출됨.. 또 나올까..?)

이건 문제를 잘 풀줄 알아야한다. 이를 위해 꼭 꼭 확률질량함수와, 기댓값, 분산을 외워놓아야한다.
<Example>

람다는 2 * 3 = 6이다. 이를 꼭 꼭 알자.
P(X >= 5) = 1 - (P(0) + P(1) + ... P(4))이다. 이때 각 확률은 포아송 분포의 확률질량함수를 통해 알 수 있다.
(람다 = 3분 동안의 통화의 기댓값... 3*2 = 6) 이거 확률질량함수 안외워놓으면 못푼다..
# 람다 = 단위 시간 당 평균 x 주어진 시간.
# 이항분포와 초기하 분포와의 관계. (걍 그렇구나..)


n이 커질수록 점점 비슷해진다.
베이기음초포 6개의 이산 확률 분포를 잘 외워두자. (확률질량함수, 기댓값, 분산, memoryless, 각 증명) 안보고 쓸 줄 알아야한다.
4. 조건확률질량함수
- 조건확률 질량 함수 # 말 그대로.. 조건부 확률로 이루어진 확률질량함수.

걍.. 조건부 확률 형태의 확률 질량 함수이다.
- 확률질량함수 전확률 공식 # 전확률 공식을 통해 확률 질량 함수 구하기.

배반 사건으로 전체 표본 공간이 나눠짐을 기억하자. 이걸 까먹었으면 2주차 강의를 다시 봐야한다.
<Example>

예제 3.25
종류 1일 때의 확률 질량 함수는 (소자가 죽는)성공 확률이 r인 기하 분포의 확률질량함수이다. 종류 2일 때는 (소자가 죽는)성공 확률이 s인 기하 분포의 확률질량함수이다. 이게 그냥 주어진거다.
조건부 확률 질량함수가 주어졌으므로 확률질량함수 전확률 공식을 통해 X의 확률 질량 함수를 구할 수 있다.

헷갈리니까 자주 풀어보자.
- 조건부 기댓값, 분산

걍 그렇군. 조건부 확률 질량 함수를 통해 구하는 거지 뭐..
<Example>

이건 그냥 뭐.. 이미 조건부 질량 함수가 각 기하 함수를 따르는 걸 알고 있다. 이에 대한 공식을 사용하면 된다
E(X) = 1/ p , Var(X) = 1 - p/ p^2. 이를 사용하면
P(X | 소자2)에 대해서 E(X | 소자2) = 1/s , Var(X | 소자2) = s / 1- s^2 이겠지. 소자 1도 똑같이 구하면 된다.
'학부 수업 > 확률 및 랜덤 프로세스' 카테고리의 다른 글
ch5. Pair Of RVs(2) - 이변량 정규분포 (0) | 2024.05.13 |
---|---|
ch5. Pair Of RVs (0) | 2024.05.09 |
ch4-2. simulate RV (0) | 2024.05.09 |
ch4. Continuous (2) | 2024.05.09 |
ch2. Probability (2) | 2024.05.09 |