수학/통계학11 [확률론] (6) Monty Hall & Simpson's Paradox 이전 글에서 언급했듯이 통계학은 직관에 반하는 불확실성의 확률을 계량화하는 것에 그 목적이 있다. Monty Hall Problem과 Simpson's Paradox는 대표적인 반직관적 문제다. 이에 대해 알아보자. Monty Hall은 퀴즈쇼의 호스트인데 그는 퀴즈를 푸는 이에게 세가지 옵션을 준다. 눈앞의 세문 중 하나의 문 뒤에는 자동차가 선물로 있고, 두개의 문 뒤에는 염소가 한마리씩 존재한다. 참여자는 세가지의 문 중 하나를 고르게되고, Monty는 참여자가 선택하지 않은 문 중 염소가 있는 문을 연다. 그리고 나서 Monty는 우리에게 선택지를 바꿀 기회를 주는데 이 때 바꿔야하는지 바꾸지말아야하는지가 Monty Hall Problem의 핵심이다. 이 문제를 풀기 위한 방법은 세가지가 있다. .. 2022. 2. 1. [확률론] (5) Conditional Independence 조건부확률과 관련하여 보편적으로 저지르는 실수 세가지를 확인해보자. 첫째, P(A|B)와 P(B|A)를 헷갈리는 것이다. 이를 '검사의 오류'라 부른다. 여담으로 변호사도 저지른다. 대표적인 사례를 통해 이해하는 것이 빠르다. 20세기 영국에 Sally Clark라는 여성이 있었는데 그녀의 두 아이들이 죽었고 그녀는 살해죄로 기소당했다. 검사는 그녀가 결백하다고 가정했을 때, 두 아이가 미스테리하게 죽을 확률이 1/8500이라고 주장했다. 게다가 두 아이 모두 죽었으니 그 확률은 P(dead|innocent)=1/8500의 제곱이니 극히 드물다고 말했다. 그러나 이는 두가지의 오류를 범하고 있는 것이다. 첫째, 우리는 그녀의 두 아이가 죽은 상황에서, 그녀가 무죄일 확률, 즉 P(innocent|dead.. 2022. 2. 1. [확률론] (4) Conditional Probability Conditional Prob.(조건부확률)를 공부하기에 앞서 Indepndence를 살펴보자. P(A and B) = P(A)P(B)의 경우 우리는 A와 B가 독립이라고 한다. 세가지 이상의 event가 존재하는 경우엔 모든 joint event에 대해 P(A and B)=P(A)P(B)부터 P(A and B and C ...) = P(A)P(B)P(C)... 가 성립해야만 한다. 독립은 Neuton-Pepys Problem의 사례를 통해 잘 공부할 수 있다. 우리가 모든 면이 고른 정육면체의 주사위를 던진다고 가정해보자. 다음 세가지 경우 중 무엇이 가장 확률이 높을까? 첫째, 주사위 6개를 던졌을 때 최소 1개가 6이 나오는 경우 둘째, 주사위 12개를 던졌을 때 최소 2개가 6이 나오는 경우 셋째.. 2022. 1. 31. [확률론] (3) Birthday Problem, Properties of Probability 우리의 직관에 반하는 예시인 Birthday Problem을 살펴보면서 확률의 특성에 대해 알아보자. 만약 k명의 사람들이 존재할 때, 그 중 적어도 2명의 생일이 서로 같을 확률은 얼마일까? 이 문제의 가정은 i.i.d라는 점이다. 가령 k명의 사람이 모인 집단이 무작위적으로 추출된 것이 아니라 특정 일자를 생일로 가질 확률이 확률적으로 높은 집단이라면 이 문제는 무효가 된다. 따라서 생일의 확률은 identically distributed된 경우라고 가정한다. 이 문제를 풀기 위한 과정은 다음과 같다. 첫째, 만약 k > 365라면 확률은 1이 된다. k=366이라면 매우 운이 없는 경우 365명 모두의 생일이 다르더라도 적어도 한 명의 생일은 누군가와 겹치게 되니 P(k)=1, k>365가 된다. .. 2022. 1. 31. [확률론] (2) Story proofs, Axioms of Probability 이전 글에 이어서 Counting을 얘기해보자. 10명의 사람을 4명, 6명으로 그룹화짓는 짓는 경우의수는 몇가지인가? 이는 10C4(=10C6)이다. 왜냐하면 첫번째 그룹을 선택함으로 인해 그 나머지가 두번째 그룹으로 자동 형성되기 때문이다. 그러나 5명, 5명으로 나누는 경우는 다르다. 첫번째 그룹의 5명을 선택할 때 마찬가지로 두번째 그룹이 생성되는데, 이 그룹은 서로 차별점이 없다. 예를 들어 ABCDE를 고르면 나머지 FGHIJ는 두번째 그룹으로 자동생성되는데, 이 때 첫번째 그룹을 고르기 위한 10C5에 FGHIJ가 그대로 포함되기 때문에 double-counting의 이슈가 발생한다. 따라서 우리는 10C5 / 2를 해줌으로서 double counting을 해소할 수 있다. 이제 이 표에서 .. 2022. 1. 31. [확률론] (1) Probability and Counting 기초통계학은 직관에 반하는 불확실성을 계량화하기 위해 존재한다. Data Science field에서의 발전으로 통계학의 중요성이 위축되었으나 그럼에도 불구하고 data가 부족한 경우 통계학은 좋은 tool로써의 역할을 한다. Sample Space는 실험을 통해 얻을 수 있는 모든 가능사건의 집합이다. 이 Sample Space의 부분집합을 우리는 event라 부른다. 확률에 대해 naive한 정의를 내리자면, 확률이란 모든 가능사건 중 특정 event에 한정되는 사건의 비율을 뜻한다. 즉, Sample Space의 면적 중 부분집합 event A의 면적인 것이다. 가령 동전을 두번 던지는 경우, 4개의 가능사건이 Sample Space 내부에 존재하고, 이중 우리가 를 얻게될 확률은 1/4인 것이다... 2022. 1. 31. [베이즈통계] (3) 베이즈추정은 정보를 얻을수록 더 정확해진다 여지껏 P(E|D) = P(E) * P(D|E), 즉 데이터가 하나만 존재하는 경우만을 봐왔다. 이제 정보가 여러개 주어진 상황을 살펴보자. 사실 별 내용이 없어서 필기 대충했다. 동전던지기와 주사위던지기는 서로 독립적인 시행이니 이들을 결합한 사건은 결국 두 사건의 확률의 곱으로 구성된다는 내용이다. Naive Bayesian Classifier을 활용한 대표적 사례인 스팸필터를 살펴보자. 우리는 스팸인지 아닌지를 확인하고 싶다. 그런데 이를 사전적으로 추정할 방법은 없으니 1/2로 prior prob을 설정한다. 그리고 여지껏 취합한 정보에 의하면 스팸메일에는 60%의 확률로 url이 존재하며, 스팸이 아닌경우 20%의 확률로 존재한다. 기호로 표현하자면 P(url|spam)=60%인 것이다. 이를 .. 2022. 1. 26. [베이즈통계] (2) 방법론의 리스크 vs 선택의 리스크 확률을 바라보는 베이지언과 빈도주의학파간의 관점 차이를 예시를 통해 알아보자. 외관상 구분이 불가능한 항아리 A, B가 있다. A에는 9개의 하얀공, 1개의 검정공이, B에는 8개의 검정공, 2개의 하얀공이 들어있다. 특정 항아리에서 공을 꺼냈을 때 그것이 검정공이었다면 그 항아리는 A인가 B인가? 이 질문에 대한 빈도주의자의 답은 다음과 같다. 아 그들은 시작전에 이 명제를 깔고 들어간다. "만약 특정 수준을 만족한다면 틀린 추정을 할 리스크를 감내한다" 이들의 선택은 그 자체가 확정적인 리스크는 아니지만 방법론이 리스크를 내포하고 있다. 그들은 당연히 해당 항아리가 B라고 말한다. 만약 B에서 우리가 10번 공을 뽑는데, 8개의 검정공과 2개의 하얀공이 나왔다고 가정하자. 우리는 검정공이 나올때는 B.. 2022. 1. 26. [베이즈통계] (1) 정보의 획득이 확률을 바꾼다 간단한 예시를 통해 베이즈통계학의 개념에 다가서보자. covid에 확진될 확률이 20%, 확진되지 않을 확률이 80%라고 가정하자. 우리는 이를 사전적으로 알고 있으며 이를 prior probability(사전확률)이라 부른다. 우리는 covid tester를 갖고 있는데, 이 tester는 covid에 실제로 걸렸을 때 양성이 95%, 걸리지 않았을 때는 음성이 90%의 확률로 도출된다. 이를 conditional probability(조건부확률)이라 부른다. 이 때 조건이 되는 것은 사전확률의 event다. 우리는 conditional probability와 prior probability를 곱하여 4가지의 가능세계를 구현할 수 있다. C&P, C&(~P), (~C)&P, (~C)&(~P)가 그것이다.. 2022. 1. 26. [경제수리통계학] 8. Large Sample Theory 1. Asymptotic Asymptotic은 '점근적인'이란 뜻을 가졌다. 직관적으로 극한의 경우를 생각해보면 쉬울듯하다. 수가 무지막지하게 늘어나면서 점근적으로 특정값에 접근하는 모습을 생각하면 받아들이기가 쉽다. Asymptotic을 뒷받침하는 두가지 정리가 존재한다. 1) Law of Large Numbers, 대수의 법칙이다. 이는 표본의 크기가 커질수록 표본의 평균이 모평균에 근사한다는 이론이다. 이는 엄연히 확률적인 의미로서의 근사이기 때문에 표본평균이 모평균일 확률이 높아진다는 의미다. 단순한 예로 여론조사할 때 5000만 국민 중 1000명이 아니라 45000만명을 대상으로 조사를 하면, 그 표본평균값이 모평균에 확률적으로 근사한다는 것이다. 2) Central limit Theorem:.. 2021. 12. 21. [경제수리통계학] 7. Sampling distribution: univariate 1. Random Sample 모집단에 대해 복원반복추출을 진행한다. 복원반복추출은 두가지 특성을 가진다. 첫째, 추출된 random variable(r.v)를 기록한 뒤 다시 모집단에 넣어 "복원"한다. 둘째, 복원되었기에 매 추출시행 때마다 특정 r.v가 추출될 확률이 고정된 체로 "반복"된다. 이 때문에 추출된 sample의 r.v는 independent & identically distributed, 즉 i.i.d라는 성질을 갖게 된다. 이 i.i.d가 sample을 통한 population 추정의 핵심가정이 된다. 이 때, independent는 이전에 추출된 r.v가 배제되지 않고 다시 모집단에 속한 체로 표본추출이 시행되었다는 점에서 이전의 사건과 현재의 사건간의 확률적 의존이 없음을 뜻한다.. 2021. 12. 9. 이전 1 다음 반응형