SemPer_ [606828] · MS 2015 (수정됨) · 쪽지

2020-01-04 23:47:53
조회수 44,193

찐막)정독) 점공순위 계산기 Ver 2.4 업데이트 및 설명

게시글 주소: https://orbi.kr/00026687695

(71.5K) [21987]

점공순위 계산기 배포용 Ver 2.4.xlsx

(반드시 정독바람.)


안녕하세요. SemPer_입니다. 


Lumiere에 제 공식이 올라감에 따라서 오르비 뿐만이 아니라 다른 곳에도 수출이 되고


여기서도 밖에서도 후하다는 이야기가 많이 나와서 그것에 대한 설명을 업데이트와 같이 해드리려고 합니다.


일단 매번 그랬지만 그래프 투척



무엇이 무엇에 관한 그래프냐? 


X축이 나타내는 것은 실지원자/점공지원자이고 Y축이 나타내는 것은 계수입니다.


R^2은 결정계수라는 지표로, 0.82정도면 굉장히 높은 수준입니다.


또한 눈으로 보시면 아시겠지만 정말 가운데의 추세선이 표본들을 잘 표현하고 있다고 말할 수 있겠습니다.


따라서, 예상예비번호는 저 가운데에 있는 추세선을 기준으로 계산된 것입니다.



그렇다면 왜 후하다는 이야기가 나오는 것인가?


일단, 점공순위 계산기의 파라미터인 추세선만 따로 놓고 보겠습니다.



보시면 0.6, 0.75가 어디에서 계산을 하고 있는지 아실 수 있습니다. 또한 제가 저 그래프에서 0.075(lumiere에서는 0.05로 잡긴합니다. 하지만 0.6, 0.75사이의 차이가 0.15이고, 절반으로 나누면 0.075이므로 구간을 똑같이 하기 위해서 여기서는 0.075로 봅시다.)로 잡는다면 어떠한 결과가 나오는지 봅시다.



위에 직사각형이 기본에 포함하고 있던 범위이고, 아래 빨간색과 초록색 선 사이의 범위가 0.075로 구간을 잡을때 나타나게 되는 범위입니다. 당연히 두개의 넓이는 같을 것입니다. (단순히 식을 위아래로 0.075 옮긴거니깐요.)


이 때 제가 가지고 있는 표본을 넣고 정확도를 측정해보았습니다.


그 때 나온 표본의 개수와 정확도가 바로



이 파트입니다. 저 부분이 이해가 안 가시는 분이 많으셨을텐데, 이런 의미였습니다. 정확도를 보면 65.38퍼센트, 82.69퍼센트로 더 높습니다.


따라서 지금 나오는 등수가 후한게 절대 아닙니다. 오히려 기존의 Lumiere가 박했던거지.


후하게 생각되는건 이전에 lumiere가 존재했기 때문에 그렇게 느낀거지, 만약 제가 선두주자였으면 오히려 0.6 0.75가 너무 박하다고 느끼셨을겁니다.


또한 보시면 1.65정도를 넘어갈때 0.6 이하로도 예측범위를 잡게 되는데, 이거 때문에 더 그러시는 것 같습니다. (계수가 낮을 수록 등수는 높게 나옵니다.)


만약 저게 안 믿기신다면 그래프를 다시 한번 봅시다. 확대버전으로.



평가해봅시다. 이것과, 위에 범위를 표시해놓은 것과 비교를 해보았을 때, 어느 것을 따르는 것이 더 정확할 지.


본인 선택에 맡기겠습니다.




이 이야기는 여기까지 하고, 다른 이야기로 넘어가봅시다.


사용법부터해서 어디까지 믿어야하는가? 입니다.


일단 엑셀 파일을 열어봅시다.




제가 명시를 해 놓았듯이, 수정가능한 항목에 해당사항을 적어주셔야 값이 도출이 됩니다.


신뢰도까지 본인이 판단하여 스샷과 같이 85를 넣었다고 하고 봅시다., 


그러면 결과가 저렇게 나오죠. 


예상예비번호는 단순 추세선에 넣은 결과를 의미합니다.


즉, 평균값 정도로 생각하시면 될 것 같습니다. 그 이유는 각각의 추세선에서 차이가 이렇게 그려져서 그래요.




(Reference: Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers, Keying E. Ye - Probability and Statistics for Engineers and Scientists (9th Edition)  -Prentice Hall (2011))


저렇게 정규분포를 나타내고 있어서 그렇습니다. (정확히는 T Distribution을 그립니다.)


그때 저기 가운데 치솟은 즉 평균값이 저 예상예비번호라는 이야기에요.


그리고 여기서 예측범위란 본인이 설정하신 그 확률, 여기서는 85%의 확률로


본인의 점수가 있는 구간을 나타낸 겁니다.


즉 여기서는 85퍼센트 확률로 50.6등, 70.7등 사이에 있겠네요.


이런 식으로 보는 겁니다.




사용법은 대충 이러하고, 어디까지 믿어야하는가인데


제가 표본을 정리하면서 느낀것은 결국 갑자기 표본이 앞에 몰려들어올 경우에는 오차가 확 벌어진다는겁니다.


무슨말인고 하니, 위에 확대된 그래프를 보시면 많은 표본들이 존재하는걸 보실 수 있습니다.


잠깐 관점을 이렇게 다르게 바꾸어서, 예를 들어서 본인이 10/50이고 실지원자가 100이라고 할께요.


이 때 실제를 까보니 12등이 나왔습니다.


이 값이 저 추세선이라고 칩시다.


근데 만약에 깠는데 10등이 나온 케이스를 A, 15등이 나온 케이스를 B라고 할께요.


그래프를 다시 보면, A의 케이스는 추세선 아래, B의 케이스는 추세선 위입니다.


즉, 추세선은 어느정도 사람이 빠짐을 가정하고 있습니다. 


그 예상보다 사람들이 더 많이 들어오면 값이 위로 올라가고 덜 들어오면 아래로 내려가겠죠.


점공을 보고서 본인이 생각하기에 사람들이 더 들어올 것 같다! 싶으시면 더 보수적으로 잡으시고


이제 더이상 안 들어올 것 같다! 하시면 더 후하게 보셔도 좋습니다. (예측범위 구간내에서)





그러면서 추가 주의점을 좀 알려드리면


1. 이 데이터는 끝물에 뽑은 데이터이기 떄문에 현재 데이터와는 안 맞을 수 있다. 사람들이 더 들어올 수 있다는걸 감안하면서 봐 주세요.


2. 본인 위에 점공을 한 사람이 많을수록 예측구간이 의미가 있을 확률은 올라갑니다. 


이건 지금 당장 제가 평가를 할 수 있는 부분이 아니고 올해 표본을 모아서 내년에 봐야하는 부분이므로


이것 또한 참고해주세요. (상위권일수록 의미가 있을 확률이 더 높다는 이야기입니다.)


3. 결국 이거도 참고용이기 때문에 너무 엄청난 기대를 하지 말고 보시는게 좋습니다.


'덕분에 발뻗잠합니다!' '행복회로온!' 이런 댓글은 제가 발뻗잠 못하게 만듭니다.


언제나 비판적으로 대해주세요.


4. 차이가 T distribution을 띤다고는 하나 실제 그래프는 이렇게 생겼습니다.



평균값이라고 해서 막 엄청 많고 이런 ideal한 케이스는 현실에서 찾아보는 것은 기적에 가까운 일입니다.


따라서 통계적 추정을 해서 찾았으나, 본인이 봤는데 99퍼가 50퍼로 변할 수도 있다는 점 제발 참고해주세요.



마지막으로 부탁입니다. 제발 참고용으로만 봐주세요. 


저도 맞을 가능성이 더 높다는 것은 아나, 틀렸다고해서 제 탓을 하시면... ;;




이제 업데이트 내용입니다.


2.4 버전인데, 비교해서 std dev를 찾는 과정에서 수정된 공식을 사용하지 않는 오류가 있어서 수정하였습니다.


하지만 이전과 마찬가지로, 거의 차이는 없으니 그대로 쓰셔도 상관없습니다.



긴 글이었습니다. 전부 다 읽으셨으면 수고하셨고


이해가 안되는 부분, 비판등 전부 댓글로 질문 받습니다.





감사합니다.

rare-나무위키

0 XDK (+7,800)

  1. 3,000

  2. 100

  3. 500

  4. 100

  5. 100

  6. 1,000

  7. 1,000

  8. 1,000

  9. 1,000