조건부 확률을 이용한 베이즈 정리

“기하학에 피타고라스 정리가 있다면 확률론에는 베이즈 정리가 있다.”

에스라인 몸매를 자랑하던 S씨는 10여 년 전 어느 날 샤워를 하다 문득 가슴에서 작은 덩어리가 만져지는 것 같은 느낌이 들었다. 며칠간 불면의 밤을 보내다 용기를 내 병원을 찾았고 유방암 검사를 받았다. 당시 의사는 검사 정확도가 90%라고 알려줬다. 그리고 검사 결과 양성으로 나왔다. 자신이 유방암일 확률이 90%라는데 충격을 받은 S씨는 그 자리에 털썩 주저앉았다.

그때 의사가  “이 결과로는 유방암일 확률이 10%도 안 되니 너무 걱정하지 말고 추가 검사를 해봅시다.” S씨는  “그게 무슨 말씀이세요?”

의사 말에 따르면 유방암에 걸린 여성은 성인 여성의 1% 수준이고 검사 정확도가 90%이므로 정상인데도 검사에서 유방암에 걸린 것으로 나올 확률은 10%다. 따라서 설사 검사에서 양성으로 나왔더라도 진짜 유방암에 걸렸을 확률은 8.3%에 불과하다고 의사는 화이트보드에 수식까지 쓰며 설명해줬지만 S씨는 무슨 말인지 알아들을 수가 없었다. 아무튼 여러 검사를 한 결과 다행히 유방암이 아닐 걸로 판정됐다. 당시 의사가 S씨에게 설명하려고 했던 게 바로 베이즈 정리(Bayes’ theorem)로 확률을 얻는 방법이다.

 

  • 사후에 친구가 논문 펴내

베이즈 정리를 만든 사람은 영국의 목사인 토머스 베이즈(Thomas Bayes)다. 1701년 목사의 아들로 태어난 베이즈는 결국 아버지를 이어 성직자의 길을 걸었는데 수학이 취미였다고 한다. 그는 평생 논문 두 편을 발표했는데 하나는 서른 살 때 펴낸 신학 논문이고 다른 하나는 35살에 익명으로 발표한 수학 논문으로 아이작 뉴턴의 미적분학의 논리적 기초를 옹호한 내용이다.

그 외에는 이렇다 할 업적이 없는 삶을 살다가 베이즈는 1961년 60세로 사망했다. 이때 친구였던 리처드 프라이스(Richard Price)가 베이즈의 유고를 정리하다 흥미로운 메모를 발견했다. 베이즈가 특이한 통계 연구를 하고 있었던 것. 프라이스는 베이즈의 연구를 정리해 1763년 ‘런던왕립사회철학회보’에 발표했다. 이렇게 해서 무명의 아마추어 수학자 토머스 베이즈의 이름은 오늘날 수학뿐 아니라 통계가 쓰이는 자연과학과 사회과학의 여러 분야에서 끊임없이 회자되고 있다.

베이즈의 정리는 이전의 경험과 현재의 증거를 토대로 어떤 사건의 확률을 추론하는 알고리듬이다. 따라서 사건이 일어날 확률을 토대로 의사결정을 할 경우 그와 관련된 사전 정보를 얼마나 알고 있고 이를 제대로 적용할 수 있는가에 크게 좌우된다. 흔히 베이즈 정리는 조건부 확률이라는 말로 표현되기도 한다.

S씨의 사례로 돌아가 보면 중요한 건 ‘양성반응일 때 유방암일 확률’이다. 즉 양성반응이라는 조건에서 유방암일 확률을 ‘P(암|양성)’으로 나타낸다. 집합을 떠올리면 P(암|양성)은 다음과 같다.

P(암|양성)=P(암∩양성)/P(양성), P(양성)은 양성반응일 확률.
P(암∩양성)=P(암|양성)P(양성)

마찬가지로 ‘유방암일 때 양성반응일 확률’은 다음과 같이 나타낼 수 있다.

P(양성|암)=P(양성∩암)/P(암), P(암)은 유방암에 걸렸을 확률.
P(양성∩암)=P(양성|암)P(암)

따라서 P(암∩양성)=P(양성∩암)=P(암|양성)P(양성)=P(양성|암)P(암)이고 이 관계는 아래의 식으로 변형될 수 있는데 이게 바로 베이즈 정리다.

P(암|양성)=P(양성|암)P(암)/P(양성)

여기서 P(양성|암)은 ‘유방암일 때 양성반응일 확률’로 90%이므로 0.9다(확률은 0에서 1 사이다). 결국 S씨가 검사결과에 주저앉은 건 P(양성|암)을 P(암|양성)으로 착각했기 때문이다. 한편 P(암)는 유방암에 걸린 사람의 비율이므로 0.01이다. P(양성)는 양성반응인 확률로 이는 암에 걸린 여성이 양성반응인 확률에 암에 걸린 여성의 비율을 곱한 값(P(양성|암)P(암))에 유방암에 안 걸린 여성(N)이 양성반응인 확률에 유방암에 안 걸린 여성의 비율을 곱한 값(P(양성|N)P(N))을 더한 것이다(=0.9×0.01+0.1×0.99=0.108).

따라서 P(암|양성)=0.9×0.01/0.108=0.083, 즉 검사에서 양성일 경우 유방암일 확률은 8.3%가 된다.

허리에 나잇살이 약간 붙긴 했지만 여전히 에스라인을 유지하고 있는 S씨는 최근 샤워를 하다 또 가슴에서 멍울이 만져졌다. 이번에도 예전 병원을 찾았고 그 의사도 여전히 있었다.  검사결과 이번에도 양성이었다. 이전 경험도 있고 해서 S씨는 큰 충격을 받지 않았지만 정작 의사는 꽤 심각했다. 의사는 지난 10년 사이 진단 기술이 발달해 이제는 정확도가 99%에 이른다고 얘기했다.

“90%에서 99%가 됐다고 큰 차이가 있나요?”

“예전에는 양성일 경우 유방암일 확률이 8.3%였지만 지금은 50%나 되니까요.”

“네?”

이제 P(양성|암)은 0.99이고 P(양성)는 0.0198(=0.99×0.01+0.01×0.99)이므로 P(암|양성)=0.99×0.01/0.0198=0.5로 50%가 된다.

 

Copyright © Math4U

수학교육 전문가
Math4U 원장 김동기

Real Pro, Big Difference!
Math4U’s goal is to enable students to succeed academically and personally.