베이즈 통계학 맛보기

베이즈 통계학


🤔 조건부 확률이란?

image.png 조건부확률 $P(A|B)$는 사건 B가 일어난 상황에서 사건A가 발생할 확률을 의미한다. 베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려줍니다. A라는 새로운 정보가 주어졌을 때 $P(B)$로 부터 $P(B|A)$를 계산하는 방법을 제공한다.


베이즈 정리

image.png


📌 예시

사전확률, 민감도(Recall), 오탐율(False alarm)을 가지고 정밀도(Precision)를 계산하는 문제이다.

  • COVID-99 의 발병률이 10% 로 알려져있다. COVID-99 에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1% 라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID- 99 에 감염되었을 확률은?


$θ$를 COVID-99 발병 사건으로 정의(관찰 불가)하고, 𝒟를 테스트 결과라고 정의(관찰 가능)한다.
발병률 10% image.png

실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1% image.png

image.png 만일 $P(𝒟|¬θ)$를 모른다면 이 문제는 풀기 어렵다.

image.png 따라서 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은 0.916이된다.


✅ 그렇다면 만일 오검진될 확률(1종 오류)이 1%가 아닌 10%면 어떻게 될까?

image.png 오탐율(False alarm)이 오르면 테스트의 정밀도(Precision)가 떨어진다.



📊 조건부 확률의 시각화

image.png

오탐을 줄이게 되면 정밀도 계산이 더 높아지게 된다. 정밀도를 계산할때는 TP와 FP로 계산한다.


베이즈 정리를 통한 정보의 갱신

베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다. image.png

✅ 앞서 COVID-99 판정을 받은 사람이 두 번째 검진을 받았을 때도 양성이 나 왔을 때 진짜 COVID-99 에 걸렸을 확률은?

image.png

세번째 검사해도 양성이 나오면 정밀도가 99.1% 까지 갱신된다.



🚫 조건부 확률 → 인과관계?

  • 조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추 론할 때 함부로 사용해서는 안 된다.
  • 데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능하다.


✅ 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.

image.png


✅ 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.

image.png 만일 $Z$의 효과를 제거하지 않으면 가짜 연관성(spurious correlation)이 나온다.


📌인과관계 추론 : 예제

a,b 중 어떤 치료법이 완치율이 더 높은지에 대해서 분석을 하고 싶다. 즉, 치료법에 따른 완치율의 원인과 결과를 분석하고 싶다. 각각의 치료법에 따른 통계치는 아래 표와 같다. 어떤 환자군이 작은 신장결석과 큰 신장결석을 가지고 있을때 치료법 a,b를 선택했을때 완치률을 기록한것 이다.

image.png

전체적으로 봤을때는 치료법 b가 좀 더 높은 완치율을 가지는 것으로 보인다. 근데 각각의 환자군에 따라서 보게 되면 작은 신장결석과 큰 신장결석 환자 모두에게 치료법 a가 더 높은 완치율을 보인다. 가장 유명한 통계학의 역설 문제인데 이것은 신장결석 크기에 따른 중첩효과를 제거해야만 실제 정확한 치료법에 따른 완치율 계산이 된다.


이때 모든 환자들이 치료법 a를 선택했을 때와 치료법 b를 선택했을 때 완치율을 계산하는 방법 즉, 조정 효과를 통해서 Z의 개입을 제거하여 계산한다.

image.png

a의 경우 조건부 확률로 계산하면 78%가 나왔지만 중첩효과를 제거하면 83.25%가 나온다.

image.png

b의 경우 조건부 확률로 계산하면 83%가 나왔지만 중첩효과를 제거하면 77.89%가 나온다.

📍 조건부확률로 계산한 치료효과와 정반대의 결과가 나오게 된다.

'AI > 이론' 카테고리의 다른 글

CNN Preview  (0) 2021.02.02
Optimization  (0) 2021.02.02
뉴럴 네트워크 - MLP(이론)  (0) 2021.02.01
PyTorch basic  (0) 2021.02.01
통계학  (0) 2021.01.29
seaborn  (0) 2021.01.29
matplotlib II  (0) 2021.01.29
matplotlib I  (0) 2021.01.29

+ Recent posts