한양대 정보시스템` [365338] · MS 2011 · 쪽지

2011-06-27 23:39:29
조회수 532

확률분포에서 평균의 개념...

게시글 주소: https://orbi.kr/0001286626

확률변수 X와 대응되는 확률 P(X=x) 의 대응관계를 나타낸게 확률분포잖아요

근데 확률변수 X의 평균 E(X)라는 개념이 너무 추상적이어서요..

대체 뭐에 대한 평균이라는건지요?

0 XDK (+0)

  1. 유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.

  • sos440 · 104180 · 11/06/28 15:59 · MS 2005

    이렇게 생각하세요. (주: 편의상 실수값을 갖는 확률변수만 생각하겠습니다.) 확률변수가 주어지는 시점에서 이미 확률분포는 주어지는 것이나 마찬가지입니다. 그래서 기대값을 논할 수 있지요. 그 자세한 이유는 아래 이론적인 설명으로 따로 달아두었습니다:


    ■ 확률공간이란?

    확률변수 X가 정의되기 위해서는 우선 확률공간(probability space)이 정의되어야 합니다. 확률공간은 다음과 같은 세 가지 구성요소로 이루어져 있지요:

    1. 가능한 모든 결과(outcome)들을 모아놓은 집합인 샘플공간(sample space) Ω.
    2. 가능한 모든 사건(event)들의 집합 F. 여기서 하나의 사건은 여러개의 결과들을 포함할 수 있습니다.
    3. 각각의 사건마다 0과 1 사이의 확률값을 부여하는 함수 p : F → [0, 1], 즉 확률 측도(probability measure). 물론, 한 사건이 여러개의 사건으로 이루어져 있으면 각각의 사건의 확률값의 합과 원래 사건의 확률이 같아야 합니다.

    말이 좀 어려운데, 예를 보면 이해하기 쉬울 겁니다.

    공정한 동전 한 개를 던지는 경우를 생각해봅시다. 그러면 샘플공간은 Ω = {앞, 뒤}로 적을 수 있지요?

    이때 가능한 모든 사건들은 Ø, {앞}, {뒤}, {앞, 뒤} 가 되며, 사건들의 집합 F는 이 네 개의 집합을 원소로 갖는 집합이 됩니다. 어째서 {앞, 뒤}가 들어있냐고 물으실 수 있는데, 이 경우는 '앞 또는 뒤가 나오는 경우'으로 이해하시면 됩니다. 즉, 사건이라는 것은 쉽게 말하면 우리가 그 확률을 논하고 싶은 어떤 '가능한 경우'를 나타낸다고 보시면 됩니다. 다른 예로 만약 우리가 공정한 주사위에 대하여 확률공간을 고려한다면, '눈이 1 또는 2 또는 5가 나오는 경우' 혹은 {눈1, 눈2, 눈5}도 하나의 사건이 될 수 있겠지요.

    마지막으로 확률측도 P는 p(Ø) = 0, p({앞}) = 1/2, p({뒤}) = 1/2, p({앞, 뒤}) = 1 로 정의되는 함수 P가 됩니다. 보시다시피 p({앞}) + p({뒤}) = p({앞, 뒤}) 가 성립합니다. 즉, (배반)사건들의 확률의 합은 사건들의 합집합의 확률과 같습니다. 즉, 말 그대로 각 사건들마다 우리가 '확률'이라고 부를 수 있는 값들을 주는 함수라고 보시면 됩니다.


    ■ 확률변수란?

    이제 확률변수가 뭔지 살펴봅시다. 확률변수(random variable)는 주어진 확률공간에서 각각의 결과마다 어떤 실수값을 부여하는 함수입니다. 이것의 의미를 이해하기 위하여 위의 공정한 동전의 예를 들어봅시다.

    만약 우리가 동전의 앞면이 나오면 백원을 주고 뒷면이 나오면 아무것도 안 주는 게임을 진행한다고 생각합시다. 그러면 X(앞) = 100, X(뒤) = 0 으로 정의된 함수는 확률변수가 되며, 앞면과 뒷면이라는 각각의 결과에 '100원을 얻는 경우'와 '0원을 받는 경우'라는 결과를 대응시켜줍니다. 즉, 확률변수는 쉽게 말하면 어느 한 쪽의 사건들과 다른 쪽의 사건들을 연결해주는 역할을 하지요.

    그러면 무슨 이야기를 할 수 있을까요? 네, 한 쪽의 확률 측도를 이 확률변수를 이용하여 다른 쪽으로 보낼 수 있습니다. 바로 위의 예를 이용하자면, p('앞이 나오는 사건의 확률') = p({앞}) = 1/2 라고 이야기하는 대신에 P('100원을 딸 확률') = 1/2 라고 이야기할 수 있다는 것입니다. 우리는 이것을 편의상 P(X=100) = 1/2 와 같이 단순하게 적을 수도 있지요. 물론 마찬가지로 P(X=0) = 1/2 로 적을 수도 있습니다. 그리고 물론 P(X≤50) = 1/2 와 같은 표기도 가능한데, 짐작하셨겠지만 이 표기는 사건 A = {x∈Ω : X(x) ≤ 50} 에 대한 확률 측도 p의 값을 의미합니다. 이 경우 A = {뒤}이므로, 결국 P(X≤50) = p({뒤}) = 1/2 가 되지요.

    바로 이렇게 해서 얻어진 다른 쪽의 확률측도 P가 바로 확률분포(probability distribution)입니다.

    즉, 우리가 주어진 상황에 해당하는 확률공간을 암묵적으로 깔고 들어간다면, 사실상 주어진 상황의 모든 정보는 확률변수에 담겨있습니다. 반대로 우리는 배경이 되는 확률공간을 잊어버리고 확률변수와 그에 대응되는 확률분포만 알고 있어도 됩니다. 어차피 확률변수 X가 정의되기 위해서는 그 배경이 되는 확률공간 (Ω, F, p)가 있어야 되고, 그 말은 확률변수가 주어진 시점에서 이미 이런 것들을 암묵적으로 깔고 들어간다는 이야기와 다를 바 없거든요.

    즉, 중요한 점은 이것입니다. 우리가 확률변수를 이야기하는 시점에서 이미 확률측도나 확률분포는 주어져 있다는 것이지요. 그래서 우리는 확률변수의 기대값이라는 개념을 말할 수 있습니다.


    ■ 평균 혹은 기대값이란?

    평균(mean) 혹은 기대값(expectation value)란 '주어진 확률변수가 평균적으로 취할 수 있는 값'으로 이해할 수 있는 값입니다. X가 확률변수이고 p가 확률측도일 때, X의 기대값은 다음과 같이 정의됩니다:

    E(X) = ∫ X dp

    뭔가 그럴듯해보이는데, 또 한편으론 뭔가 이상하죠? 아마 지금쯤 '어라, 그럼 동전이나 주사위같은 이산적인 경우에는요?' 라고 물으실 지 모릅니다. 네, 사실 위 식은 그러한 모든 경우를 포함합니다. 아니, 그렇게 되도록 적분의 정의를 확장할 수 있습니다. 하지만 유한한 케이스에서는 굳이 저렇게 적을 필요는 없고, 다음과 같이 바꿔 적을 수도 있지요: Ω = {1, ..., n}이라고 할 때,

    E(X) = X(1)p({1}) + X(2)p({2}) + ... + X(n)p({n}).

    그런데 우리는 확률변수의 개념을 통해서 위 식을 다음과 같이 바꿔 적을 수 있습니다.

    E(X) = X(1)P(X=X(1)) + ... + X(n)P(X=X(n))

    이 식이 더 눈에 익숙하지요? 이제 왜 우리가 확률변수만 주어져도 기대값을 이야기할 수 있는지 이해하실 수 있다고 믿습니다. -ㅁ-;;