베이즈 통계학 기초

베이즈 통계학 기초


조건부 확률이란?

베이즈 통계학을 이해하기 위해서는 조건부 확률의 개념을 이해해야 한다. 조건부 확률 $P(A|B)$사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다.

  • 조건부 확률을 계산하는 방법은 두 개의 사건 A와 B가 있을 때 두 사건의 교집합이 일어날 확률을 특정 사건으로 나눠주게 되면 계산할 수 있다.

  • 이 수식을 다음과 같이 정리하면 베이즈 정리를 유도할 수가 있고, 조건부 확률을 이용해서 정보를 갱신하는 방법을 알 수 있다.


베이즈 정리: 예제

베이즈 정리는 다음과 같은 용어로 구별할 수 있다.

  • 데이터가 주어졌을 때 파라미터 $\theta$가 성립할 확률을 사후확률이라 부른다.

  • 사전확률은 데이터가 주어지지 않은 상황에서 즉, 모델링을 하기 이전 사전에 주어진 파라미터 $\theta$에 대한 확률이다. 모델링 하고자 하는 타겟에 대해서 사전에 가설로 깔아둔 확률분포라고 이해하면 된다.

  • 가능도는 주어진 파라미터 $\theta$ 가정에서 데이터가 관찰될 확률들을 계산한 것이다.

  • Evidence는 데이터 자체의 분포를 의미한다.

  • 이 가능도와 Evidence를 통해서 사전확률을 사후확률로 업데이트할 수 있게 된다.

(문제) COVID-99의 발병률이 10%</u>로 알려져있다. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1% 라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?

  • 발병률이 10%를 사전확률 $P(\theta) = 0.1$ 로 정의할 수 있다.

  • 실제로 걸렸을 경우가 $\theta$, 검진된 확률 즉 검진된 경우로 관찰이 된 경우를 $\mathcal{D}$라고 표시 했을 때 $P(\mathcal{D}|\theta) = 0.99$이다.

  • 반대로 실제로 걸리지 않았을 때($\theta$가 아닌 상황에서)는 $P(\mathcal{D}|ㄱ\theta) = 0.99$이다. 여기서 $ㄱ$은 부정을 표시하는 것이다.

  • Evidience를 계산할때는 주변확률분포를 계산하는 방식($P(X)=\sum_yP(X,y)$)과 조건부확률을 이용하여 다음과 같이 정리할 수 있다.

  • 마지막으로 주어진 값들을 이용해서 사후확률을 계산할 수 있다.

만약 실제로 걸리지 않았을 때, 즉 1종 오류가 0.1%로 오르게 되면 다음과 같이 된다.

  • 즉, 베이즈 정리를 통해 알 수 있는 것은 1종 오류가 오르게 되면 이 테스트의 정밀도 precision가 떨어지는 것을 관찰할 수 있다.

  • 여기서 precision은 실제 질병에 걸렸다고 양성이 나왔을 때 이 병에 걸렸을 확률이다.

위 결과를 confusion matrix로 정리하면 다음과 같다.

  • 데이터 분석의 성격에 따라 1종 오류를 줄일지 2종 오류를 줄일지가 민감하다.

  • 질병이 아니라고 판정을 내렸을 때 실제 질병인 2종 오류는 의료 문제에서 굉장히 타격이 큰 문제이다.


베이즈 정리를 통한 정보의 갱신

새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.

앞서 COVID-99 판정을 받은 사람이 두 번째 검진을 받았을 때도 양성이 나왔을 때 진짜 COVID-99 에 걸렸을 확률은?

  • 이렇게 데이터가 새로 들어올 때마다 사후 환경을 업데이트 할 수 있는 장점이 있다.


조건부 확률은 인과관계?

조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해서는 안된다.

  • 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.

  • 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.

참고자료

부스트코스