Bayesian Statistics 01. Probability

01. Probability

우리는 세상을 살아가는 데 있어서, 무수히 많은 결정(decision)을 내리게 된다. 결정을 내릴 때, 우리는 해당 결정에 영향을 미친 원인들과 해당 결정을 내림으로써 미치는 결과 요인들을 고려하면서 결정을 내리게 된다. 하지만, 많은 요인들을 고려하면서 내린 결정이 잘못된 결정이 되는 경우도 많이 있는데, 이는 결정을 내릴 때 고려하는 요인들을 우리가 완벽히 알지 못하기 때문이다.

만약, 우리가 세상에 대해 100% 알고, 모든 인과관계를 파악할 수 있다면, 항상 옳은 결정을 내릴 수 있다. 하지만, 세상에는 우리가 알지 못하는 요인들이 무수히 많기 때문에, 우리는 최대한 많은 요인들을 살아오면서 습득한 경험과 지식으로 예측하고 판단하며 최종 결정을 내린다. 다시 말하지만, 이것은 우리가 세상에 존재하는 요인들을 완벽하게는 알지 못하기 때문이다.

불확실성이란, 어떤 요인에 대해 완전히 알지 못하기 때문에 발생하는 것으로, 해당 요인에 대해 미리 알고 있는 사전지식과 경험으로 판단하게 된다. 우리가 어떤 결정을 내릴 때, 우리는 결정에 영향을 미치거나 받는 모든 요인들의 불확실성을 고려하게 된다. 하지만, 이러한 불확실성을 모두 고려하기엔 인간의 능력은 한계가 있다.

확률은 불확실성을 수치화(정량화)함으로써, 불확실성을 수학으로 다룰 수 있도록 도와주는 도구이다. 확률을 이용하면 불확실성이라는 것을 정량화할 수 있고, 여러가지 수학 도구를 이용해서 불확실성을 모델링할 수 있다. 이러한 수학적 확률 모델은 여러가지 요인들에 대한 불확실성 속에서 우리가 최적의 결정을 내릴 수 있게 도와주는 도구이다.

Background

확률을 살펴보기에 앞서서, 필요한 용어들을 먼저 정리할 필요가 있다. 용어들의 정의를 살펴볼때, 집합이라는 개념을 유의하면서 살펴보면 좋다.

  • Experiments

    시행이라고도 불리며, sample space로부터 하나의 데이터 샘플을 얻는 행위를 말한다.

  • Sample space

    Sample space란, 어떤 시행에 의해 나올 수 있는 모든 경우의 집합을 의미한다. 예를들어, 동전던지기라는 시행에서는 뒷면 또는 앞면만이 나올 수 있다. 이때, 동전던지기라는 experiment의 sample space는 ${\text{HEAD}, \text{TAIL}}$이 된다. 주사위를 던지는 experiment에 대해서의 sample space는 ${1, 2, 3, 4, 5, 6}$이 될 것이다.

  • Events

    사건이라고도 불리며, sample space의 부분집합이다. 예를 들어, 주사위를 던지는 시행에서, sample space는 ${1, 2, 3, 4, 5, 6}$이다. 그리고, 다음과 같은 event $A$를 정의할 수 있다.

    • $A$: 짝수가 나오는 경우

      이때, $A$는 sample space의 부분집합인 ${2, 4, 6}$이 된다.

  • Random variables

    확률변수라고도 불리며, 어떤 experiment를 통해 얻을 수 있는 outcome을 어떤 다른 라벨로 매핑하는 함수를 의미한다. 예를들어, 주사위를 던지는 experiment가 있다고 가정해보자. 이때, sample space는 ${1, 2, 3, 4, 5, 6}$이 된다.

    이때, 우리는 random variable $X$를 다음과 같이 정의할 수 있다.

    • $X = x_1$: 주사위가 짝수인 경우

    • $X=x_2$: 주사위가 홀수인 경우

    • $X=x_3$: 주사위가 4보다 크거나 같은 경우

      Random variable $X$은 여러개의 이벤트중 하나의 이벤트를 취할 수 있으며, 주사위 던지기라는 experiment를 통해 얻을 수 있는 outcome들을 $x_1, x_2, x_3$ 중 하나로 매핑하게 된다. 이때, 이random variable $X$의 sample space는 ${x_1, x_2, x_3}$이 된다. 만약, 주사위를 던지는 시행을 통해 sample 4를 얻었다면, event $x_1$와 $x_3$가 동시에 일어난 것이다.

Definition of Probability

확률은 불확실성을 정량화하는 도구로, 불확실성을 수학으로 계산할 수 있게 하는 도구이다.

어떤 experiment(시행)에 대한 random variable(확률변수) $X$가 있고, $X$는 $x_1,…,x_k$의 event(사건, 경우)를 취할 수 있을 때, $x_i$가 일어날 확률은 대문자 $P$를 이용하여 $P(X=x_i)$로 정의한다. 또는 $p_X(X=x_i)$로 표기하거나 간단하게 $p(x_i)$로 표기하기도 한다(세 가지 표현법 모두 같은 의미임). 어떤 사건이 일어날 확률은 항상 0보다 크거나 같으며 1보다 작거나 같다.

$$0 \leq P(X=x_i) \leq 1$$

How to Define Probability

확률은 불확실성을 정량화해주는 도구이다. 불확실성을 정량화할때, 확률을 어떻게 정할지는 매우 중요한 문제이다. 불확실성을 수치로 표현하기 위한 확률은 다음과 같으 세 가지로 정의할 수 있다.

  • Classical method
  • Frequentist method
  • Bayesian method

Classical Method

Equally Likely Probability

Sample space에서 모든 event들은 일어날 확률이 같다고 정의하는 방법이다.

동전 1번 던지는 시행에서 sample space는 앞면, 뒷면만 있다고 가정한다. 그럼 앞면이 나올 확률은 0.5이고, 뒷면이 나올 확률 역시 0.5이라고 정의한다.

하지만, 이러한 정의에는 문제가 있는데, 내일 날씨가 비가오거나, 맑거나, 우박이 내리는 3가지 경우만 있다고 가정해보자. 이때, classical method에 따르면, 맑을 확률은 0.33, 비가 올 확률도 0.33, 우박이 내릴 확률도 0.33이 된다.

따라서, classical method 방법은 매우 조심스럽게 사용해야 한다.

Probability in Frequentist Statistics

Relative Rates of Events in Infinite Sequence

어떤 event의 확률을 정의할 때, “수많은 시행 가운데 그 event가 일어난 비율”이라고 정의하는 방법으로, Frequentist statistics에서 확률을 정의하는 방법이다. 즉, 데이터를 기반으로 확률을 정의하는 방법이다.

예를들어, 동전 던지기에서 앞면이 나올 확률을 계산하고 싶다면, 일단 동전을 무수히 많이 던져본다. 1000번을 던진 후, 651번의 앞면이 나왔다면, 동전 던지기 시행에서 앞면이 나올 확률은 0.651 로 정의하는 것이 Frequentist statistics 에서의 확률 정의이다.

이 경우, 위 classical method의 문제점을 설명할때 예로 들었던 날씨 예제의 문제는 해결이 된다. 1년동안 우박이 내리는 날은 매우 적기 때문에 우박이 내릴 확률은 매우 작게 측정될 것이다.

하지만, 이러한 정의에도 문제점이 있다. 어떤 이벤트가 일어날 확률을 계산하기 위해서는 많은 수의 샘플이 필요하고, experiment를 많이 수행해야 한다. 하지만, experiment가 가능한 경우는 실제로 그렇게 많지가 않다.

예를들어, 내일 비가 올 확률을 구하고 싶다고 해 보자. Frequentist statistics에 따르면, 내일 날씨를 여러번 샘플링 해야 한다. 즉, 내일 날씨를 확인하고, 다시 오늘로 돌아온 후 내일이 되면 날씨를 확인하고, 다시 오늘로 돌아와서 내일이 되면 날씨를 확인하고를 반복해야 한다. 하지만, 알다시피, 이건 타임머신이 있어야 가능하다.

Probability in Bayesian Statistics

Personal Perspective

Bayesian statistics에서 확률을 정의하는 방법으로, 데이터와 함께 event에 대한 개인의 사전 지식을 바탕으로 확률을 정의한다.

예를 들어, 내일 비가 올 확률을 구할때, 자신이 가지고 있는 데이터 뿐 아니라, 오늘의 날씨를 보고 내일 비가 올 확률이 0.7정도 되겠구나 하는 개인의 믿음을 확률에 반영하게 된다.

Bayesian statistics에서의 확률의 정의의 특징은, 개인의 사전 지식이 중요하게 작용하며, 많은 양의 데이터를 모으지 않고도 꽤 정확한 추정을 할 수 있게 도와주기도 한다.