SemPer_ [606828] · MS 2015 · 쪽지

2020-08-09 23:01:14
조회수 568

[통계개념] 확률 변수와 basic 개념

게시글 주소: https://orbi.kr/00031518088

안녕하세요. SemPer_입니다.


학습자료 관련된 덕코가 올랐다길래 글 좀 써보려고 했는데 

저는 16수능 백분위 96따리이기 때문에 뭘 쓸지 정말 고민을 많이 하다가

그래도 제가 관심이 좀 많은 통계에 대한 글을 써보면 괜찮지 않을까 해서 좀 끄적여 봅니다.




개인적으로 제가 고등학교 때 가장 헷갈리는 개념은 두가지였습니다.



1. 확률변수와 실현값의 차이



2. 모집단과 표본에 대한 통계량에 대한 개념



이 두 가지가 가장 헷갈렸던 것으로 기억합니다.


이번에 쓸 내용은 1번에 관련된 내용입니다.





------------------------------------------------------------------------------------------------------------------------





여러분들이 확률 변수에 대한 개념을 어떻게 이해하고 있는지는 모르겠습니다.

또한 제가 졸업을 하고 5년의 시간이 흘렀기에 어떻게 정의를 하고 있는지 몰라서 교과서를 찾아보았습니다.


"~~ 이와 같이 어떤 시행에서 표본공간의 각 원소에 하나의 실수가 대응되는 함수를 확률변수라고 한다."

(ref:  15개정 고등 확률과 통계 79P)


근데 이게 말이 되게 어렵습니다. 실제로 대학교 수학책에서도 정확하게 이렇게 적혀져 있습니다. 하지만 상당히 이해하기 어렵기 때문에 예를 들어서 설명해보도록 하겠습니다.





평범한 동전 두 개 입니다.

교과서 기본 문제들이 이렇게 나오곤 하죠.

"이 때 나올 수 있는 확률 변수의 개수를 구하세요"

하지만 동전 두 개가 달랑 나와 있는 상태에서는 확률 변수의 개수를 구할 수 없습니다.

확률 변수를 정의하기 위해서는 앞에 조건이 하나가 붙어야합니다.


바로 시행(Experiment)와 표본공간(Sample Space)입니다.


두 가지가 먼저 이야기가 되고 나서, 확률 변수를 이야기 할 수 있습니다.


시행은 말 그대로 시행이라고 이해하면 편하고


표본 공간은 시행에서 가능한 모든 결과의 집합을 이야기합니다.


주사위의 대표적인 표본 공간은 {HH, HT, TH, TT} 인 것이지요.




자 그러면 두 가지를 고려하였다고 합시다. 시행은 동전 두 개를 동시에 던졌다 라고 할게요.


그렇다면 확률 변수의 개수를 구할 수 있을까요?


아닙니다.


문제에서든, 혹은 우리가 확률 변수에 대한 개념을 "정의"해주어야 합니다.


예를 들어서, 확률 변수 X를 "앞면이 나온 동전의 수"라고 정의를 해준다면 각각의 표본공간에 있는 원소들 즉, HH, HT, TH, TT 들이 2,1,1,0으로 변화하게 됩니다.



위의 정의를 다시 본다면,


어떤 시행에서 표본공간의 각 원소에 하나의 실수가 대응되는 함수를 확률변수라고 한다.


즉, 어떠한 시행(동전 두 개를 동시에 던졌다) 에서 표본공간( {HH, HT, TH, TT} ) 의 각각의 원소 HH, HT, TH, TT   들이 하나의 실수 ( 2,1,1,0 )_대응하는 함수를 확률 변수라고 한다는 것입니다.


포인트는 우리가 어떠한 시행을 하고, 함수를 정의하는데 이 때 함수는 거창한 함수가 아닌 상태의 정의 정도로 생각해주셔도 될 것 같습니다.





여기서 이어지는 것이 실현(Realization)입니다.


모평균의 추정을 할 때 정말 헷갈렸던 내용인데, 모평균의 추정은 신뢰구간을 이용합니다.


예를 들어 우리가 모평균을 μ라고 하면,



처럼 적고, 이는 μ 가 저기 양측의 문자 범위에 포함될 확률이 0.95라는 것을 의미합니다.


이때 저 Xbar가 xbar(작은 xbar)로 바뀌면 다음과 같이 쓸 수 있는데,



이것을 신뢰도 95%의 신뢰구간이라고 합니다.



그리고 여러분이 여기서 정말 많은 착각을 하시는 것이 이것입니다.




예를 들어서, xbar가 0이라고 문제에 주어져 있고, 시그마는 4, n 은 16이라고 주어져 있다면



이렇게 생각하여 모평균은 95% 확률로 -1.96과 1.96사이에 있어! 라고 착각을 하는 것입니다.


흐름이 그러하지만, 당연하게도 이것은 틀린 접근입니다.



처음에 예를 들었던 것을 가져와 봅시다.



여기에서 확률 변수는 무엇인가요?


Xbar입니다. 즉, 변하는 숫자는 Xbar이지 모평균이 아닙니다.


우리가 모평균의 추정을 하는 이유는 모평균은 정해져 있으나 그 값을 알아낼 수 없기 때문에 표본의 추출을 통하여 범위를 추정하는 것입니다.


이 때 확률 변수 Xbar는 수많은 xbar들을 만들어낼 것이고, 위의 xbar가 0인 경우도 그 중 하나일 것입니다.


그러면 바로 위의 사진은 무슨 뜻이냐?



이 사진을 보시면 모평균은 고정되어 있고, 수많은 파란색 선상이 있는 것을 확인하실 수 있습니다.


즉 95%의 의미는, 우리가 수 많은 샘플들을 뽑으면 그에 따라서 xbar도 달라질 것입니다.


xbar는 실현값이기 때문이죠.


그리고 구간의 넓이는 1.96에 의해서 정해져 있는데


이에 따라서 정말 수 없이 많은 구간들이 생기게 되고


이 구간들이 모평균을 포함하고 있는 퍼센티지가 95%라는 것입니다.



절대로



이런 의미가 아닙니다.



이 두 가지를 절대로 헷갈리시면 안됩니다.









왠지 쓰다가 의욕이 떨어져서 그런지 설명이 굉장히 장황했네요.


추가적으로 질문 있으시면 성심껏 답변해드리겠습니다.

rare-나무위키

0 XDK (+0)

  1. 유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.