3 minute read

확률의 종류에는 여러가지가 있다. 그 중 조건부 확률은 기본적인(단순한) 확률에 조건이 붙은 확률을 말한다.

예를 들어, 메시가 한 시즌에 50골을 넣을 확률이 기본적인 확률이라고 하면, 조건부 확률은 메시가 사비와 같은 팀으로 뛰었을 때 50골을 넣을 확률이라고 할 수 있다.

기본적인 확률(사전확률)인 메시가 50골을 넣을 확률에, 사비라는 조건이 붙게 된 것이다.

이번 posting에서는 조건부 확률과 이를 사용한 통계기법인 Bayesian 통계에 대해 다뤄보자.

조건부 확률

어떠한 사건이 일어났을 때, 그 사건 이후에 다른 사건이 일어날 확률

image

총 확률의 법칙(The Law of Total Proability)

A의 특정 확률 변수에 대해, 모든 가능한 이벤트의 총 확률은 1이다.

image

여기에 조건이 붙게 되면, A는 어떤 조건이 일어날 수 있는 모든 경우에서 발생하는 A라는 확률의 총합이다.

만약 2개의 변수가 있을때, 두 변수가 연관이 있다면, B가 일어난 상황에서 A에 대한 확률 P(A)P(A I B) 이다.

image

P(득점왕 메시) = P(득점왕 메시 I 사비와 같은 팀) * P(사비와 같은 팀) + P(득점왕 메시 I 사비와 다른 팀) * P(사비와 다른 팀)

연관이 없다면, B가 일어난 상황에서 A에 대한 확률 P(A) 는 P(A) * P(B) 이다.(독립사건)

P(득점왕 메시) = P(득점왕 메시) * P(박지성이 도움왕)

베이지안 이론(Bayes Theorem)

관찰자의 경험과 지식을 통해 사전확률을 정하고, 새로운 데이터가 주어졌을때 이를 계산하여 사전 확률을 사후 확률로 보다 유의미하게 업데이트 시키는 이론.

확률이 처음 그대로 있는 것이 아니라, 추가적인 데이터가 발생할 때마다 업데이트 된다.

image

P(A) -> 사전확률(Prior): 조건이 부여되기 전 기존 확률(관찰자의 경험, 지식을 통한 주관적인 확률)

P(A I B) -> 사후확률(Updated): 조건이 부여된 후 업데이트 된 확률

P(B I A) -> 주어진 데이터, liklihood(통계): A가 일어났을 때, B가 발생할 확률

분모 P(B) 는 B가 일어날 수 있는 모든 경우의 수가 포함 되어야 한다.

베이지안 문제

1) 약물반응

가정: 약물을 실제 사용했고, 결과가 양성일 확률은 99%(TP)

P(양성 I 약물)

FP: 약물을 실제 사용하지 않았는데, 결과가 양성일 확률 1%

P(양성 I not 약물)

사전확률: 전체 인구의 0.5%는 약물이 신체에 포함되어 있다.

P(약물)

사후확률: 테스트의 결과가 양성으로 나왔고 실제로 약물이 있을 확률.

P(약물 I 양성)

이 사후확률을 또 사전확률로 사용해 한번 더 시행하면 0.98이 나오는데 그럼 더 확실하게 약물을 투여했다고 볼 수 있음.

2) 몬티홀

사전확률: 자동차가 내가 선택한 문에 있을 확률 P(차) 33%

사후확률: 진행자가 염소있는 문을 보여주고, 내가 선택한 문에 자동차가 있을 확률 P(차 I 염소)

TPR: 1번 문에 자동차가 있고, 진행자가 염소 있는 문을 열어줄 확률 P(염소 I 차) 100%

FPR: 1번 문에 자동차가 없고, 진행자가 염소 있는 문을 열어줄 확률 P(염소 I not 차) 100%

내가 처음에 선택한 문에 자동차가 있을 확률이 1/3이니까 바꾸는게 이득. 바꾸면 2/3 확률로 자동차가 있을 것.

3) 객관식 맞추는 문제

사전확률: 답을 알았을 확률 P(know)

사후확률: 답을 맞췄고, 그 답을 알고 있었을 확률 P(know I right)

TPR: P(right I know)

FPR: P(right I not know)

4) 범죄자 문제

사전확률: 용의자를 범인이라고 확신할 확률 P(범인) 60%

사후확률: 용의자가 왼손잡이고, 형사가 용의자를 범인이라고 확신할 확률 P(범인 I 왼손)

TPR: P(왼손 I 범인) 100%

FPR: P(왼손 I not 범인) 20%

여기서 범인이 왼손잡이일 확률이 100이 아니라 90%로 바뀌면 TPR만 바꾸면됨. 100%-> 90%

베이지안 나만의 공식

1) 사후 확률 정의한다.

2) 사후 확률에서 힌트를 얻어 사전 확률을 정의한다.

3) 사후 확률을 거꾸로해서 TPR을 정한다.

4) TPR에서 조건을 반대로 만들어서 FPR을 정한다.

5) 공식에 맞게 계산한다.

Discussion

Bayesian statistics와 Frequentist statistics의 차이점에 대해 생각해보고, 데이터 분석 시 언제, 어느 것을 사용해야 효율적인지 논해보세요.

답변:

Frequentist statistis(빈도주의)는 객관적으로 발생하는 사건의 빈도로 확률을 검정한다. 전체 경우의 수에서 원하는 경우의 수가 발생하는 빈도로만 확률을 구할 수 있기 때문에 계산량이 적고, 정해놓은 오차범위 안에 이 빈도가 포함되어 있으면 해당 확률이 맞다고 가정한다. 하지만 빈도를 측정한다는 것은 상황에 따라 많은 비용과 시간이 발생할 수 있다는 단점이 있다.

반면, Bayesian statistics(베이지안)은 관찰자의 주관적인 경험과 지식을 바탕으로 사전확률이라는 것을 정의하고, 발생할 수 있는 다양한 조건에 따라 확률을 업데이트 한다. 따라서, 확률이 고정되어 있는 것이 아니라 새로운 조건이 추가될 때마다, 혹은 기존 조건이 바뀔 때마다 확률이 바뀔 수가 있다. 빈도로만 계산할 수 있는 빈도주의와는 달리 여러가지 조건이 추가되기 때문에 계산량이 훨씬 많지만, 실제로 측정하기 힘든 자연재해처럼 많은 시간과 비용이 요구되는 상황에서는 더 유용하다. 시간과 비용, 그리고 빈도를 계산하기 위한 데이터가 충분하다면 빈도주의를, 그게 아니라면 베이지안을 사용하는 것이 효율적일 것 같다.

Categories:

Updated: