본문 바로가기
  • Fearless
수학/통계학

[베이즈통계] (1) 정보의 획득이 확률을 바꾼다

by Albatross 2022. 1. 26.
반응형

간단한 예시를 통해 베이즈통계학의 개념에 다가서보자.

covid에 확진될 확률이 20%, 확진되지 않을 확률이 80%라고 가정하자. 우리는 이를 사전적으로 알고 있으며 이를 prior probability(사전확률)이라 부른다. 우리는 covid tester를 갖고 있는데, 이 tester는 covid에 실제로 걸렸을 때 양성이 95%, 걸리지 않았을 때는 음성이 90%의 확률로 도출된다. 이를 conditional probability(조건부확률)이라 부른다. 이 때 조건이 되는 것은 사전확률의 event다. 

우리는 conditional probability와 prior probability를 곱하여 4가지의 가능세계를 구현할 수 있다. C&P, C&(~P), (~C)&P, (~C)&(~P)가 그것이다. 사전확률과 조건부확률의 곱의 형태로 이들의 확률을 구할 수 있다. 

 

우리는 베이즈통계학을 통해 데이터가 주어졌을 때 특정 사건이 발생했는지에 대해 추정하고 싶다. 위 예시에서 만약 given data가 양성이라면, 우리는 4가지의 가능세계 중 C&P와 (~C)&P 두개로 가능세계가 제한된다. 해당 상황에서 우리는 실제로 covid에 감염되었는지 그 확률을 확인해보고 싶다. 이 때 0.19 : 0.08의 비율이니 양성이라면 실제 covid에 걸렸을 확률은 70.3%가 된다. 이는 기호로 나타내면 P(C|positive)이고, 기존 P(C)=20%에서 상당히 높아진 값이다. 

 

요약하자면, 우리는 covid에 감염될 확률이 20%라고 사전적으로 알고 있었고, test결과와 covid간의 conditional probability 또한 기존 경험을 통해 알고 있었다. 이런 상황 속에서 '양성'이라는 data가 주어졌다면 실제로 event가 발생했을 확률을 구하는 것이 베이즈통계학의 목적이다. data를 통해 기존 prior prob를 업데이트해준다고 보면 된다. 

 

그런데 만약 위 사례처럼 prior probability를 산정할 수 없는 상황이면 어떻게할까? 가령 covid 초기 상황에서 감염률에 대한 정확한 통계치가 파악되지 않았다면 말이다. 베이즈통계학은 이런 상황에서 강력한 힘을 발휘한다. prior probability를 주관적인 수치로 추정하고 이를 data를 통해 수정해나가면 정확한 수치에 도달할 수 있을 것이란게 베이지언의 주장이다. 

또 다른 예시를 살펴보자. 내가 친구로부터 손편지를 받았는데(data), 이 사실로부터 그녀가 나를 좋아하는지 안하는지 추정할 수 있을까? 우선 이 사후확률 P(사랑|손편지)을 추정하기 위해선 prior인 P(사랑)이 필요한데 시작부터 난관에 봉착하게 된다. 주사위를 던져서 1이 나올 확률은 1/6이다. 이는 수천번의 시도를 통해 경험적으로 얻을 수 있는 사실이다. 그러나 그녀가 나를 사랑하는지에 대한 확률은 경험적으로 획득이 불가능하다. 그녀가 나를 사랑하는 경험이 수없이 많아 빈도주의적으로 이를 측량하는 것이 불가하기 때문이다. 

 

그래서 일단은 P(사랑)을 50%라는 주관적인 확률로 설정한다. 그러나 conditional probability는 매우 합리적인 data를 통해 도출해야만 한다. 이 경우엔 잡지사에서 여성들을 대상으로 설문조사를 하여 조건부확률을 구했다. 

일단 conditional prob * prior prob의 곱으로 4가지 가능세계의 확률을 구했다. 이 중 나는 손편지를 받았으니, 받지않은 가능세계는 제외되어야 한다. 그럴 때 P(사랑|손편지)는 66%로 도출된다. 이는 기존 50%에서 상승한 수치다. 

 

사실 '그녀가 나를 66%의 확률로 사랑한다'라는 명제는 어색하다. 그녀의 마음은 사랑 or ~사랑으로 결정되어있으나 내가 모르는 것에 불과하기 때문이다. 빈도주의적 관점에서 해당 명제는 어색하게 해석되지만 베이지언은 '그녀가 나를 좋아한다는 주장은 66%의 신뢰도를 갖는다'로 해석한다. 베이즈통계학은 빈도주의적, 경험주의적 관점에서 벗어나 확률을 명제의 신뢰도로 인식하는 것에 있어 차별성을 가진다. 

 

다음 예제로 넘어가보자. 첫째 아이가 여아였다면 두번째 아이 역시 여아일 확률은 얼마나 될까?

일단 우리는 남아가 출산될 확률인 P(boy)가 51%라는 사실을 축적된 데이터를 통해 안다. 그러나 특정 산부가 특정 성별의 아이를 낳을 가능성이 편향되어 있을 수 있다고 판단하여 추정을 실시한다. 또한 첫째 아이와 둘째 아이가 태어나는 사건은 서로 종속관계에 놓여있으며 그렇기 때문에 그 확률은 동일하지 않다. 우리는 특정 산부만을 다루기 때문이다. 

 

우선 문제를 풀기 위해 우리는 여아가 태어날 확률을 p라고 설정한다. 물론 사전지식을 통해 p가 49%일 확률이 높다는 것을 알지만 우리가 집중하고 있는 특정 산부에게는 적용되지 않을 수 있다. 따라서 우린 p를 0과 1사이의 수라고 설정했고, 문제해결의 편의성을 위해 discrete한 3가지 case로 나눴다. p=0.4, 0.5, 0.6가 그것이다. 이는 산부가 여아를 낳을 확률을 의미한다. 우리는 산부가 각 확률을 1/3의 확률로 갖는다고 추정했다. 이 1/3이 우리의 prior prob인 것이다. 

사실 1/3으로 추정한 과학적, 경험적 근거는 없다. 이것이 베이즈통계학의 강점이다. 베이즈통계학은 'weakly informative'하기 때문에 prior prob을 주관적으로 설정할 수 있도록 용인해주는 것이다. 

 

이 때 conditional prob은 p=0.4, 0.5, 0.6을 그대로 가져다 쓰면 된다. 우리가 살펴보려는 것은 결국 P(여아출산확률|첫째여아)이다. conditional prob을 통해 첫째남아인 case를 제외하면, 우리의 가능세계는 노란색을 칠한 구간으로 좁아진다. 

 

그렇다면 각각 2/15 : 1/6 : 1/5의 비율로 P(여아출산확률=0.4)는 33%에서 27%로, 0.5는 유지, 0.6은 33%에서 40%로 올라간다. 첫째아이가 여아였기 때문에 해당 산부가 태생적으로 여아를 출산할 확률이 높을 것으로 신규 추정한 것이다. 

 

여기서 p = 0.4, 0.5, 0.6은 객관적인 확률인데 반해 그 p의 각 분포를 추정한 prior prob은 주관확률이었다. 

사실 우리는 이 문제를 통해 여아출산확률이 60%일 확률이 40%로 0.5, 0.4인 경우보다 다소 높다는 모호한 결론을 이끌어냈다. 그러나 보통 우리는 concrete한 결과를 원하기 때문에 이를 기댓값이란 형태로 구할 필요가 있다. 기댓값은 수치로 표현되는 variable과 그 확률을 곱한 variable의 평균값이다. 이 때 해당 산부의 여아출산확률은 0.513으로, 기존 기댓값인 0.5에서 다소 높아졌다. 

반응형