1. Asymptotic
Asymptotic은 '점근적인'이란 뜻을 가졌다. 직관적으로 극한의 경우를 생각해보면 쉬울듯하다. 수가 무지막지하게 늘어나면서 점근적으로 특정값에 접근하는 모습을 생각하면 받아들이기가 쉽다.
Asymptotic을 뒷받침하는 두가지 정리가 존재한다.
1) Law of Large Numbers, 대수의 법칙이다. 이는 표본의 크기가 커질수록 표본의 평균이 모평균에 근사한다는 이론이다. 이는 엄연히 확률적인 의미로서의 근사이기 때문에 표본평균이 모평균일 확률이 높아진다는 의미다. 단순한 예로 여론조사할 때 5000만 국민 중 1000명이 아니라 45000만명을 대상으로 조사를 하면, 그 표본평균값이 모평균에 확률적으로 근사한다는 것이다.
2) Central limit Theorem: asymptotic distribution of Xbar, 즉 표본평균의 분포 또한 표본의 크기가 커질수록 정규분포에 근사한다는 것이다. 예를 들어 1000명을 대상으로 여론조사를 시행했을때의 분포보단 3000만명이 응답한 여론조사의 표본평균 분포가 정규분포에 근사할 것이란 얘기다.
Tn이 E(Tn), V(Tn)을 각각 기대값, 분산으로 갖는 확률변수라고 가정할 때,
1) Tn의 확률극한값은 c이다.
이는 Tn-c의 절대값이 양수의 모든 입실론보다 작은 상황이며, 이를 확률적으로 Tn이 C에 수렴한다고 일컫는다.
2) Tn의 Mean square값은 c로 수렴한다.
이를 증명하기 위한 방법으로 E((Tn-c)^2)를 E((Tn-μ+μ-c)^2)로 식조작을 해준 뒤, E((Tn-μ)^2)+bias(Tn)으로 분리해준다.
이때 c=E(Tn), limV(Tn)=0으로 설정하면 자연스럽게 bias(Tn)=0이 된다. 따라서 Tn의 mean square값은 c로 수렴한다.
예를 통해 직관적으로 이해해보자. 표본평균 Xbar에 대해서 E(Xbar)=μ=c일때,
n이 무한으로 한없이 다가갈 경우, E((Xbar-c)^2)=0이다. 왜냐하면 V(Xbar)=0인데 μ=c이기 때문에 bias(Xbar)=0이 되기 때문이다. 따라서 이 경우 표본평균의 mean square값은 E(Xbar)에 수렴한다고 말할 수 있는 것이다.
이거 왜하냐면 표본평균의 분산값이 결국 n이 매우 커지면 0에 수렴한다는 것을 보이기 위해서 한다.
이 때 Tn의 mean square값이 c로 수렴한다면, Tn의 확률극한값은 c이다.
3) Tn의 분포는 n이 무한으로 수렴할 경우 정규분포(T)에 수렴한다.
Tn은 t(n-1) distribution을 따르는 정규화된 t검정치인데, T는 N(0,1)을 따르는 z-score다. 이 때 n이 한없이 커진다면 t분포가 곧 정규분포화되기 때문에 n이 무한으로 수렴하면 Tn이 T에 근사한다.
2. Asymptotics of Sample mean
1) Law of Large Number(L.L.N)
E(Xi)=μ, V(Xi)=σ^2의 특성을 가진 모집단에서 random sampling, 즉 비복원 반복시행을 진행했을 때 표본크기가 커질수록 표본평균은 확률적으로 모평균에 수렴한다.
2) Central limit Thm(C.L.T)
동일한 환경에서 random sampling했을 때, 표본분산이 모분산과 같진 않으나 n이 매우커지게 되면 t분포를 따르지 않고 정규분포를 따르게 된다. 그러나 이는 approximated된 수치기 때문에 일반적 물결표시로 단순히 따른다고 표현하지 않고, a를 붙여 asymptotic하게 따른다고 적어준다.
예를 들어 확률변수 x가 카이분포(n=1)를 따를 때, P(Xbar <= 1.16)을 묻는 문제가 있다고 하자.
이 때 E(x)=n=1, V(x)=2n=2이기 때문에 Xbar는 asymptotic하게 N(1, 2/30)을 따른다. 따라서 이를 정규화하여 계산할 경우 0.73이 나오며 이는 실제 카이분포표를 통해 도출한 값인 0.75와 근사한다.
3. Asymptotics of Sample moment
1) Sample raw moment
i.i.d만 충족하면 Sample mean뿐만 아니라 MGF(적률생성함수)에도 asymptotics는 적용된다.
Sample raw moment를 살펴보자. 만약 X가 i.i.d를 따른다면, Xi^r 또한 i.i.d를 따른다. 따라서 표본을 통해 도출한 Mr'는 n이 크다면 확률적으로 E(Xi^r)=μr'에 근사한다. 이는 L.L.N를 따르는 것이다.
추가적으로 분산을 살펴보면, V(Xi^2)=E(Xi^4)-E(Xi^2)^2이니까 μ4'-(μ2')^2이다. 따라서 위에서 구한 모평균과 함께 M2'의 Tn을 구할 수 있고, 이는 C.L.T에 의해 n이 무한히 크다면 정규분포에 근사하는 것을 확인할 수 있다.
2) Sample central moment
Mr* 또한 마찬가지다. 같은 방식대로 L.L.T가 적용되어 Mr*의 표본평균값이 모평균값으로 수렴한다.
분산값을 구해 정규화한 값 또한 C.L.T 덕에 n이 클수록 정규분포에 근사한다.
step by step으로 차근히 살펴보자. r=2인 경우다.
1) Xi가 i.i.d를 따르기 때문에 적률생성함수 M2* 또한 i.i.d를 따른다. 따라서 M2*의 표본평균값은 M2*의 모평균값인 μ2, 즉 모분산 값에 수렴한다. 이는 L.L.T를 따르기 때문이다.
2) 같은 조건 하에서 Mr*의 분산은 μ4-μ2^2이며, 이를 M2*를 정규화해준 값은 C.L.T에 의해 N(0,1)에 수렴한다.
4. Asymptotics of Functions of Sample moment
1) linear function
여지껏 다룬 Tn은 Xi, Yi와 같이 단일 확률변수 그 자체였는데, 이젠 이 확률변수의 선형함수값을 다룬다.
1) Tn=a+bXbar일 때, Yi=a+bXi로 설정하면 이 또한 i.i.d를 따른다.
2) Tn=표본평균(Yi)이기 때문에 n이 무한히 클수록 Tn은 a+bμ에 수렴한다.
3) 또한 V(Yi)=(b^2)*(σ^2)이며 이를 정규화해준 값은 C.L.T에 의해 N(0,1)을 따른다.
2) nonlinear function
nonlinear한 경우에는 sample mean을 구한 뒤 function에 대입하면 된다.
이는 slutsky Thm에 의한것이며 이를 확인해보자.
slutsky Thm은 linear&nonlinear 모두 적용되는 정리다.
1) Tn이 C에 근사하고, g()이 c에서 연속적이라면 g(Tn)은 g(c)에 확률적으로 수렴한다.
이러한 성질 덕분에 1/Xbar는 g()의 형태를 가지나 비교적 쉽게 계산할 수 있는 것이다. 그러나 E(Tn)은 Xbar이고 g(Xbar)=1/Xbar의 결과로 이어지지만, E(1/Xi)가 1/Xbar인것은 아니다.
2) 만약 Xn,Yn이 각각 확률적으로 c1, c2에 수렴하며, g()이 (c1,c2)에서 연속이라면 g(Xn,Yn)은 g(c1,c2)에 수렴한다.
3) Slutsky Thm은 사칙연산이 적용된다.
C.L.T에 의해 특정 확률변수가 특정 분포에 수렴하는 경우와, L.L.N에 의해 다른 확률변수가 특정 상수에 수렴하는 경우가 있다면, slutsky thm에 의해 이 둘을 함께 풀어낼 수 있다. 예를 들어 두번째 예시를 살펴보면 c가 분산에 들어가 c^2이 되었다.
5. Asymptotics of sample variance
1) consistency
2) asymptotic distribution
6. Delta Method
7. Sampling distribution of Sample Covariance
'수학 > 통계학' 카테고리의 다른 글
[확률론] (1) Probability and Counting (0) | 2022.01.31 |
---|---|
[베이즈통계] (3) 베이즈추정은 정보를 얻을수록 더 정확해진다 (0) | 2022.01.26 |
[베이즈통계] (2) 방법론의 리스크 vs 선택의 리스크 (0) | 2022.01.26 |
[베이즈통계] (1) 정보의 획득이 확률을 바꾼다 (0) | 2022.01.26 |
[경제수리통계학] 7. Sampling distribution: univariate (0) | 2021.12.09 |