서울시립대학교 인공지능학과 김정연 교수님의 확률 및 랜덤 프로세스 강의를 정리함을 미리 알립니다.
Chapter 08. Statistics
<Outlines>
1. Classical methods
1. Classical methods
- 통계적 추론
# 관측 자료를 바탕으로 모수 추정
지금까지의 문제들은 모수(평균, 분산 등..)이 정해진 경우가 많았다.
하지만 ch8부터는 관측 자료를 보고, 모수.. 즉 모집단의 진리값에 대한 추론을 할 것이다.

cf) 통계적 추론을 공부하기 전에 잠깐 다시 복습할 내용이 있다. (ch6, ch7의 Random sample의 정의와 표본 평균, CLT)
우선 Random Sample의 조건은 i.i.d 확률 변수여야한다는 것이다.

표본 평균과 CLT의 요약은 다음과 같다.

표본 평균에 관해 SLLN, WLLN 두 법칙이 존재했다. ch.7에서 다시 확인할 수 있다.
CLT의 증명은 매우 매우 중요하니까, 꼭 알아두고 넘어가자. 이 또한 ch.7에서 확인할 수 있다.
- Point Estimation(점 추정)
헷갈리는 Estimator(추정량)과 Estimate(추정치)를 구분해야 한다.
우선 추정량의 정의는 다음과 같다.

즉 추정량은 확률 변수로 구성된 함수의 함수값이라고 생각할 수 있다. 만약 우리가 표본 평균, 표본 분산을 추정치로 구하고 싶다면 다음과 같이 함수를 구성할 수 있다.

즉 추정량(Estimator)는 우리가 추정하고 싶은 것이다. 이를 확률 변수의 함수를 통해 구현한 것이다.
이 함수에 관찰값을 대입하면 (X1= 3, X2 = 4....) 추정치(Esimate)가 된다. (즉 추정치는 상수이다.)
# X1, X2.. 확률 변수로 결정되는 추정량(Estimator)는 확률 변수이다. ***
# 추정량의 표준편차를 표준 에러(Standard Error)라고 부른다.
- Unbiased estimator(불편추정량)
불편 추정량을 이해하기 위해서, 우선 우리는 bias(편향)를 이해해야한다.

Bias(평균)는 추정치의 평균과, 우리의 관심 모수의 차이이다. 다음과 같은 식을 보인다.

이 때, bias가 없고 추정량의 평균과 관심 모수가 같을 때를 불편 추정량이라고 한다.

아래 추정량들의 기댓값과 모수를 비교하며, bias가 존재하는지 확인하겠다.
<Example1. 표본 평균>

위 이론을 증명하기 위해, 추정량의 평균과 관심 모수(E(X))가 같음을 보이면 된다. 즉 bias가 0임을 보이자.

<Example2. 표본 분산>

예제 1번의 표본 평균의 추정량과 달리, 예제 2번에서 분산을 구하기 위해 n으로 나누면(E(X-E(X)가 분산의 정의) 관심 모수와 완전히 똑같지 않다. 즉, 불편 추정량이 아니고 bias가 존재하는 것이다. 이를 보여보겠다.

하지만 여기서 중요한 점이 있다. n이 무한대로 가면(= 표본이 커지면) 결국 n-1/n은 1로 수렴하므로, bias가 줄어든다.
이를 Consistent estimator이라고 하는데, 뒤에서 배울 것이니 그렇구나 하고 일단 넘어가자.
<Example3. 표본 분산2 (불편 추정량을 만드는 추정량 함수)>


즉 n-1로 나눈 분산 추정량은 추정량의 기댓값이 모수와 같으므로 불편 추정량이다.
우리는 이렇게 Bias가 존재하는가? 아닌가를 통해 추정량이 얼마나 좋은 추정량인지 알 수 있다.
하지만 bias가 어느정도 있지만 variance가 적은 추정량이 좋은 추정량일 수 있다.
우리는 bias와 variance 모두를 고려하여 추정량이 얼마나 좋은 추정량인지 판단해야한다. 이를 다 고려하는 것이 MSE다.
- Mean square error (MSE) **증명
우리는 딥러닝, 데이터 마이닝 등에서 새로 본 데이터에 대한 예측값(일반화 성능)을 높히기 위해 bias와 variance를 줄이는데 초점을 두었다. (by 정규화, 데이터 증강 등..). 이는 MAE, MSE 등의 예측 값과 실제 값의 차이가 줄어듦을 통해 알 수 있었는데.. MSE 분산과 편향과 어떤 관계가 있는지 확인해볼 것이다.
결론부터 말하면, MSE는 분산과 편향의 제곱으로 구성된다. 이를 증명해보겠다.

그렇기에 분산과 편향이 감소한 것을 MSE가 줄어듦을 통해 알 수 있었다.
MSE의 정의와, MSE가 어떻게 나뉘는지 잘 파악하고 넘어가자. 다음 예제를 풀어보자.
<Example1. 표본 평균의 MSE>

위 문제의 표본 평균의 추정량은 불편추정량임을 이미 보였다. 즉 bias가 존재하지 않으므로, 다음과 같이 분산만 나오게 되는 것이다.

<Example2. 두 추정량의 비교> ***자주 풀기***


MSE를 우선 계산하지 말고, 주어진 두 추정량이 불편 추정량인지 먼저 확인하자.
두 번째 추정량의 평균을 확인하기 위해 순서 통계량의 개념이 사용된다.(ch6)

- Consistent estimator(일치 추정량) **암기, 증명
표본이 무한대로 갈 때, 다음을 만족하면 Consistent estimator이다.
# 표본 수 n이 무한대로 갈 때, 추정량과 관심 모수의 차이가 0에 가까워지면.. (즉 표본이 커질 때 추정량이 모수에 근사됨)


이는 체비셰프 부등식에 의해 다음과 같은 조건으로도 바뀔 수 있다.

입실론은 0보다 크니까, 체비셰프 부등식의 좌변이 0이 되려면(= 일치 추정량 정의를 만족 하려면) MSE가 0이 되야 한다.

4가지 수렴의 종류와 헷갈릴 수 있다. 제대로 정의를 외워놔야한다.
**증명**


아래는 표본 평균의 편향 추정량/ 불편 추정량이 Consistent Estimator인지 보인 것이다. (참고)


- Maximum Likelihood Estimation(최대 우도 추정량, MLE)
데이터가 주어졌을 때, 모수를 추정하는 방식이다. 이를 위해 우선 우도 함수(Likelihood function)을 이해하자.

X1~Xn은 iid이므로 pdf가 쪼개질 수 있다. 우도 함수는 해당 데이터(관측값)가 나타날 확률이라고 생각하면 쉽다.
랜덤샘플에 대한 pdf를 곱해주면 된다.


각 데이터에 대한 pdf를 곱하면 된다. (iid 이므로 이게 되는 것이다) 이렇게 하면 모수에 대한 함수 우도 함수가 나온다.
우리는 이 모수에 대한 함수(= 해당 관찰값이 나타날 확률)을 최대로 하는 모수를 찾는다. 이게 바로 Maximum Likelihood Estimation이다.
만약 우도 함수가 단조성을 보이면 로그 우도함수를 사용할 수 있다. 우리는 최대값을 구하는게 아니라 최대값을 만드는 모수(정의역 값)을 구하는 것이니까 로그를 취해서 계산의 이점을 얻을 수 있다.

예제를 풀면서 익혀보겠다.
<Example1. Maximum Likelihood Estimator>

위 문제는 베르누이 시행의 성공 확률 세타가 추정할 모수인 것이다. 데이터는 (0, 0, ... 0)으로 관찰됐다.
이에 대한 우도함수는 다음과 같다.

이 우도 함수를 미분하여, 최대값을 갖는 점을 보이면 된다. 그 점이 MLE를 통한 추정값이다.

MLE 문제를 풀면서 다음과 같은 걸 조심해야 한다.
# 우도 함수가 단조성을 갖고 있지 않으므로, 로그 우도 함수를 사용하지 않았다.
(= 로그 우도 함수는 그냥 우도 함수가 단조성을 보일 때 사용할 수 있다.)
# 최대값과 극대값은 다른 개념이다. 극대값, 구간 끝 값 전부를 확인해야한다.

<Example2. Maximum Likelihood Estimator> ***자주 풀기*** 추정하는 모수가 2개인 경우


- 피셔 정보 (Fisher Information)

피셔 정보의 정의이다. 이를 활용해서 1) 추정치의 분산의 하한을 정하고, 2) 최대우도추정량(MLE)의 성질을 볼 것이다.
피셔 정보의 정의는 총 4가지가 존재하는 것이다. (1열과 2열은 같은 거..)
4열과 5열의 정의는 i.i.d를 만족할 때 가능하다.


이렇게 구한 피셔 정보를 통해 추정치의 분산의 하한을 정할 수 있다.



즉 분산과 하한이 같으므로 괜찮은 추정치일 것이다. (분산이 최소니까..)
또한 MLE의 성질을 확인할 수 있다.

'학부 수업 > 확률 및 랜덤 프로세스' 카테고리의 다른 글
| ch9. Random Process (0) | 2024.06.11 |
|---|---|
| ch7. Sum of Random Variables (1) | 2024.06.10 |
| ch6. Random Vector (2) (2) | 2024.06.05 |
| ch6. Random Vector (3) | 2024.05.13 |
| ch5. Pair Of RVs(2) - 이변량 정규분포 (0) | 2024.05.13 |