이전 글에서 언급했듯이 통계학은 직관에 반하는 불확실성의 확률을 계량화하는 것에 그 목적이 있다.
Monty Hall Problem과 Simpson's Paradox는 대표적인 반직관적 문제다. 이에 대해 알아보자.
Monty Hall은 퀴즈쇼의 호스트인데 그는 퀴즈를 푸는 이에게 세가지 옵션을 준다. 눈앞의 세문 중 하나의 문 뒤에는 자동차가 선물로 있고, 두개의 문 뒤에는 염소가 한마리씩 존재한다. 참여자는 세가지의 문 중 하나를 고르게되고, Monty는 참여자가 선택하지 않은 문 중 염소가 있는 문을 연다. 그리고 나서 Monty는 우리에게 선택지를 바꿀 기회를 주는데 이 때 바꿔야하는지 바꾸지말아야하는지가 Monty Hall Problem의 핵심이다.
이 문제를 풀기 위한 방법은 세가지가 있다. 첫번째는 수형도를 그리는 것이다.
우선 참여자가 1번 문을 선택한 것을 가정하자. 일단 1,2,3번 각 문 뒤에 차가 존재할 확률은 1/3이다.
만약 1번 문을 골랐는데 실제로 1번문 뒤에 자동차가 존재한다면, Monty는 2번이나 3번을 각각 동일한 확률(identically distributed)로 열 것이다. 그러면 이 경우엔 1/2가 각각 곱해진다. 실제 자동차가 2,3번에 있는 경우에는 1번은 꽝이니 1번을 제외한 나머지 꽝을 Monty가 필연적으로 열 수 밖에 없다. 따라서 이 경우엔 해당 나머지 문을 열 확률이 1이니 1을 1/3에 곱해준다. 위 수형도의 마지막 node처럼 1번문을 골랐을 때 가능한 세계는 총 4개다.
그러나 이 4개의 세계 중 우리는 특정 세계만을 마주하게 된다. 가령 우리는 1번문을 선택했는데 Monty가 2번문을 열어준 경우다. 이 때 우리는 Monty가 2번문을 열었다는 사실을 신규 data로 채택하게 된다. 그러면 가능세계는 4개에서 2개로 줄어들고, 2개의 가능세계는 각각 <차1번 and 몬티2번>과 <차3번 and 몬티2번>이다. 전자는 1/6의 확률, 후자는 1/3의 확률이니 그 비율이 1:2가 된다.
우리는 바꾸어서 성공할지 그 확률을 궁금해 하는것이다. 전자를 선택하면 실패하고, 후자를 선택하면 성공하기 떄문에 Monty가 2번문을 연 상황에서 우리가 선택을 바꿈으로서 성공할 확률, 즉 P(success if switch | Monty Opens 2) = 2/3이다.
두번째 방법은 LOTP를 활용하는 것이다. 우리가 바꿔서 성공하는 event를 S라고 설정하고, Dj를 j번째 문 뒤에 차가 있는 사건이라 설정하자.
이 때 Sample Space는 D1, D2, D3의 합집합으로 구성되며, 따라서 P(S)는 P(S|D1)P(D1) + P(S|D2)P(D2) + P(S|D3)P(D3)으로 표현 가능하다. P(S|D1)은 D1에 차가 있는데 선택지를 바꿔서 성공할 확률이기 떄문에 0이 된다. P(S|D2)와 P(S|D3)는 첫선택에서 1번문을 선택했는데 옳은 것으로 바꿀 확률이니 1이 된다. P(D1)=P(D2)=P(D3)는 사전확률로 1/3이기 때문에 이들을 모두 합하면 2/3이 나온다.
세번째 방법은 문이 매우 많은 경우를 상상하여 직관적으로 받아들이는 방법인데 개인적으로 와닿지가 않아서 패스.
Simpson's Paradox는 예시를 통해 이해하면 쉽다.
H의사와 N의사가 있다. 이 둘은 심장수술과 밴드제거수술만 전문적으로 한다. H의사는 90번의 심장수술을 해서 70번 성공했다. 밴드제거수술은 10번해서 모두 성공했다. 따라서 P(S|H)=7/9, P(S|B)=1인 것이다.
N의사는 심장수술은 10번해서 2번 성공하고, 밴드제거수술은 90번해서 81번 성공했다. 즉 P(S|H)=1/5, P(S|B)=9/10이다.
H의사가 심장수술, 밴드제거수술 두 분야에 대해 모두 앞서는 성공률(확률)을 기록하고 있다. 그러나 H의사의 전체수술 성공률은 80%, N의사는 83%로 N의사의 성공률이 더 높다. 어떻게 각 분야에서의 조건부확률이 더 높은데 전체 집단에서의 확률이 더 낮을까?
이를 확률적으로 해석하기 위해 다음과 같이 event를 정의한다. A는 수술이 성공하는 사건이다. B는 N박사에 의해 수술이 집도되는 경우고, B complement는 H박사에 의한 수술이다. C는 심장수술, C complement는 밴드제거수술이다.
P(A|B and C) < P(A|Bc and C) 이고 P(A|B and Cc) < P(A|Bc and Cc)이다. 그러나 P(A|B) > P(A|Bc)이다. 이 때 우리는 C를 Confounder이라 부른다. 바로 이 C 때문에 반 직관적인 문제가 발생한 것이다. C 사건 또한 이 확률에 영향을 가하는데 P(A|B)는 B만을 그 결정요소로 보고 있다.
가령 P(A|B)는 LOTP에 의해 P(A|B and C) P(C|B) + P(A| B and Cc)P(Cc|B)라고 다시 적을 수 있다. 우리는 앞서 P(A|B and C), P(A|B and Cc)가 모두 Bc인 경우보다 낮음을 확인했었다. 그럼에도 P(A|B)가 P(A|Bc)보다 큰 이유는 P(C|B)와 P(Cc|B)에서 차이가 발생하기 때문이다. 이들은 각각 N의사가 심장수술, 밴드제거수술을 집도하는 확률이다. 이는 앞 항 성공확률의 weight으로서 기능한다. N의사는 H의사에 비해 난이도가 있는 심장수술을 적게했고, 밴드제거수술을 많이 했기 때문에 P(A|B)가 높게 도출된 것이다. 이것이 Simpson's Paradox가 발생하는 근원이다.
Simpson's Paradox를 확인할 수 있는 또다른 예시다. 나는 검은사탕을 흰사탕보다 선호한다. jar1과 jar2를 비교해봤을 떄 jar2에 검은사탕의 비율이 높고, jar3와 jar4를 비교했을 때 jar4에 검은사탕 비율이 더 높다. 따라서 jar2와 jar4를 선택해 한데 모아보니 오히려 jar1과 jar3를 모은 단지보다 검은사탕의 비율이 더 낮음을 확인할 수 있다.
이 또한 역설적으로 다가오지만 인간이 갯수에 따른 가중치를 고려하지 않기 때문에 그렇게 느껴지는 것 뿐이다.
'수학 > 통계학' 카테고리의 다른 글
[확률론] (5) Conditional Independence (0) | 2022.02.01 |
---|---|
[확률론] (4) Conditional Probability (0) | 2022.01.31 |
[확률론] (3) Birthday Problem, Properties of Probability (0) | 2022.01.31 |
[확률론] (2) Story proofs, Axioms of Probability (0) | 2022.01.31 |
[확률론] (1) Probability and Counting (0) | 2022.01.31 |