수리 나형 1등급 커트라인을 92점으로 추정하고 있는 입시 기관이 십여 개 기관들 중 오르비밖에 없고, 다수의 기관이 96점을 커트라인으로 추정하고 있는 상태에서, 수험생들의 혼란과 불안이 가중되고 있어, 우리가 수리 나형 잠정 커트라인을 92점으로 추정한 과정을 설명드리고, 1등급 커트라인에 대한 의견을 게시하기 위해 이 글을 씁니다.

실시간 커트라인 추정 시스템의 작동 원리와 시간에 따른 표시 등급컷 변화

오르비스 옵티무스에서는 통계학적으로 의미 있는 개수의 표본 (약 50개) 이 수집되면, 1등급 커트라인에 대한 추정을 시작할 수 있으며, 300개 이상의 표본이 수집되면, 커트라인이 변하지 않고, 거의 안정이 된다는 것이 알려져 있습니다.

이렇게 적은 개수의 표본으로도 추정을 할 수 있는 것은, 오르비 내에서 수집되는 표본 거의 대부분이 점수대가 균일한 최상위권 표본이기 때문입니다. 수리 나형의 경우 약 80%의 표본이 1등급인데, 모집단에서 랜덤 추출을 하면 1등급의 표본이 나올 확률은 4%를 약간 초과하는 정도(동점자 때문에)가 됩니다. 평균적으로 1등급 득점자의 비율을 5%라 가정했을 때, 오르비에서는 랜덤 추출 표본보다 1등급 표본이 16배가 많습니다. 그래서 300개의 표본으로도 1등급 컷을 추정하는 데 있어서는 4,800개의 표본을 수집한 것과 같은 정밀도를 갖습니다. 현재 수리 나형 표본은 약 1,650개가 수집되었고, 이는 수리 나형 인문계 표본으로서 약 26,400개의 표본의 정밀도에 대응합니다.

물론, 오르비의 표본은 모집단에 비하면 대단히 고득점 방향으로 편중되고 왜곡되어 있습니다. 그렇지만 어떤 입시 기관이든지, 그들이 수집하는 표본이 랜덤 표본인 것은 아닙니다. 모든 입시 기관의 표본은 특정한 형태로 왜곡됩니다. 다만 그 왜곡된 정도가 매번 일정하기만 하다면, 추정치를 내어놓는 데에는 큰 문제가 없습니다. 현실적으로 그 왜곡된 정도는 매번 어느 정도 변화하기 때문에, 그것을 보정하는 여러 도구들을 입시 기관 마다 가지고 있습니다. 각 기관의 추정치의 정확도는, 1) 표본의 왜곡이 평년에 비해 더 적었을수록 2) 보정 도구가 더 정교하고 신뢰성 있을수록 높아지게 됩니다.

그동안 수 년에 걸쳐 수집된 표본들과 여러 차례의 정제 및 보정 과정을 거쳐서, 올해 수능 시험에서는, 오르비의 수리 나형 표본의 누적도수분포가 전체 표본의 77.97% 를 처음으로 넘는 지점에서 1등급 커트라인이 형성될 것이라는 기준이 있습니다.

올해 수능에서 수집된 표본들을 시간 순으로 늘어놓고, 92점 이상인 표본의 비율, 93점 이상인 표본의 비율, 96점 이상인 표본의 비율을 시간의 흐름에 따라 측정해 보면 다음 그래프와 같습니다.

검은 수평선을 파란색 그래프가 넘으면, 실시간 등급컷이 96점으로 표시되고, 파란색 그래프와 빨간색 그래프 사이에 있으면 93점으로 표시되며, 빨간색 그래프와 연두색 그래프 사이에 있으면 92점으로 표시됩니다.

아마도 오르비 실시간 등급컷 표시기는 처음에는 커트라인을 93점으로 표시했다가, 아주 잠시 동안 96점을 표시하고, 다시 93점으로 돌아온 후, 다시 92점으로 내려와서, 그 이후로는 계속 92점이 표시되었을 것입니다.

약 300개의 표본이 수집된 시점부터는 약간의 fluctuation을 보이지만, 표본의 구성이 거의 균질한 상태를 보이는 것을 알 수 있습니다.

수리 나형 92~96점대의 누적 도수 분포

오르비가 추정하고 있는 수리 나형 원점수에 따른 누적 도수 분포는 다음과 같습니다.

1등급 커트라인은 표본의 도수 분포가 처음으로 4.000%를 넘는 지점의 점수로 결정됩니다. 이번 12학년도 수능 수리 나형 점수 분포에서 특이점은, 96점까지의 득점자의 수만으로도 1등급에 요구되는 4%의 인원 거의 모두를 채우고, 그 다음 95, 94, 93점은 도수가 거의 없는 상태에서, 다시 92점에 엄청난 수의 표본이 몰려있다는 점입니다.

이것은 시험이 전체적으로 쉽게 출제된 가운데, 2점, 3점 문제 중에는 90점대 상위권 학생들이 틀릴 문제가 없었고, 4점 짜리 문제 일부가 90점대 학생들을 변별했기 때문입니다. 잘 아시다시피 수리 영역에 1점 짜리 문제는 없으므로, 95점을 받으려면, 최상위권 학생이 2점 짜리 한 문제를 틀리는 매우 드문 일이 벌어진 상태에서, 다시 3점 짜리 한 문제를 틀리고, 4점 짜리 문제는 모두 맞혀야 하므로, 실질적으로 거의 발생하지 않는 점수 조합입니다. 94점을 맞기 위해서도 3점 짜리 두 문제를 틀리거나, 2점 짜리 한 문제와 4점 짜리 한 문제를 틀려야 하므로, 94점도 잘 발생하지 않는 점수 조합입니다. 93점은 4점 짜리 한 문제와 3점 짜리 한 문제를 틀리는 경우이므로, (2점+2점+3점 조합도 가능하나 현실적으로 발생할 가능성이 없음) 95, 94점에 비해서는 덜하지만 약간의 도수가 있습니다. 그리고 그 다음은 4점 짜리 두 문제를 틀리는 92점인데, 92점 득점자가 너무 많아, 전체 응시 인원의 5%를 넘는 것으로 추정됩니다.

만약 92점에서 1등급 컷이 형성이 된다면 수리 나형 1등급 득점자만 전체 응시 인원의 9% 수준에 이르면서 성적표에는 백분위 93이나 94가 찍혀 나오게 됩니다. 왜냐하면 92점 득점자의 백분위 산출 공식에 따라 100-3.92-(9.0-3.92)/2=93.54 이기 때문입니다.

한 과목의 점수 분포를 추정하는 과정에서, 특정 원점수까지의 누적백분위를 추정할 때, 0.3%p 정도의 오차가 나는 것은 대단히 흔한 일입니다. 거의 대부분의 입시 기관에서 이 정도의 오차는 흔히 발생시킵니다. 예를 들어서 어떤 입시 기관에서 96점 까지의 누적 도수를 5.6%로 추정했다면, 그 입시 기관의 백분위 추정 오차가 1.0%p 정도인 것으로 판명되더라도 그 범위는 4.6~6.6% 에 해당하므로 96점에서 1등급컷이 형성된다는 것은 맞힐 수 있습니다. 일반적으로 입시 기관들은 1등급컷을 맞히더라도 0.몇%p 정도의 오차는 발생시킵니다. 심지어는 96점이나 92점까지의 누적 도수보다 훨씬 더 정밀하게 추정할 수 있는 100점 만점 득점자의 비율에 대한 추정을 흔히 1.0~2.5% 같은 식으로 표현하는 것만 보아도 0.3%p 라는 크기가 얼마나 작은 것인지 알 수 있습니다.

그런데 만약에 오르비의 96점까지의 누적백분위에 대한 추정치 3.70%에서 0.3%p의 오차가 발생하면, 96점까지의 누적백분위가 4.00%를 넘어가면서 96점에서 1등급컷이 형성되게 됩니다. 또한 0.08%p라는 아주 작은 오차만 발생해도 1등급컷은 92점에서 93점으로 올라가 버립니다.

이것은 94, 95점이 거의 없다는 수리 영역의 특징에, 96점까지의 누적 인원이 4% 근처에 놓여져 있다보니 발생하는 현상입니다. 언어 영역이나 외국어 영역같이, 그래도 정규 분포에 조금 더 가까운 형태의 점수 분포를 보이는 과목은 등급컷이 92점이 아니면 93점이나 91점이 될 것이라는 식으로 예측이 가능한데, 수리 영역은 최상위권에서 점수 분포가 계단형을 이루는 까닭에 (보통 4점짜리 문제만을 틀리기 때문에) 92점이 아니면 96점 같은 식이 되어 버린 것입니다.

각각의 원점수에서 1등급컷이 형성될 확률

위에서 언급한 이유로, 오르비는 각각의 수리 나형 원점수에서 1등급컷이 형성될 확률을 다음과 같이 추정하고 있습니다.

정리하면, 92점에서 1등급컷이 형성될 확률과 96점에서 1등급컷이 형성될 확률은 거의 비슷하지만, 92점이 아주 약간 높게 측정되었습니다.

표준점수 증발 현상

하지만 이 계산만으로 1등급컷이 92점으로 추정된 것은 아닙니다. 여러분들께서 11월 30일에 성적표를 받게 되면, 오르비에서의 가장 큰 화두는 '표준점수 증발 현상'이 될 것입니다. 이것은 표준점수가 실제로는 소수점 이하 여러 자리 밑에서 정밀하게 계산되는데, 소수점 첫째 자리에서 반올림을 해 정수로 표기한 상태에서 누적 인원을 산출하고, 성적표를 인쇄하기 때문에 발생하는 현상입니다.

원점수와 표준점수는 일차 변환(선형 변환)될 수 있습니다. 쉽게 말해 원점수를 x라 하고, 표준점수를 y라 하면, 두 함수는 y=ax+b의 관계로 표시될 수 있습니다.

여기에서 a의 기울기를 결정하는 것이 각 과목의 표준편차로서, 언어, 수리, 외국어 영역에서의 기울기 값, 즉 원점수 1점 변화 당 표준점수의 변화량은 20/표준편차로 표시할 수 있습니다.

만약 수리 나형 시험의 표준편차가 25라면, 기울기는 20/25=0.8이고, 원점수 1점이 변할 때 표준점수 0.8점이 변한다는 것입니다. 표준점수 만점을 136.90점이라고 가정해 보고, 원점수 1점씩 빼나가 봅시다.

원점수 표준점수 표준점수(반올림 후)

100 136.90 137

99 136.10 136

98 135.30 135

97 134.50 135

96 133.70 134

95 132.90 133

위 예제에서 보면, 원점수 97점 득점자와 98점 득점자가 동일하게 표준점수 135점을 받는데, 이것을 표준점수 증발 현상이라고 흔히 일컫습니다. (표준점수 증발 현상이라는 표현은, 기울기가 1을 초과하는 과목에서, 원점수가 1점 변화에 대해 표준점수 정수가 2점 변하는 현상, 즉, 위 예제와 정반대인 상황에도 혼용되어 쓰이는 경향이 있습니다.)

표준점수 증발이 발생할 확률은 원점수 전 구간 대에서 동일하다고 가정하는 이유

표준점수 증발이 나타날 확률을 점수대 별로 다르게 측정하려면,

표준점수를 적어도 0.1점 단위로 정확하게 측정해야 합니다. 그러기 위해서는, 표준점수 계산에 분모로 편입되는 변수인 표준편차를 소수점 이하 둘째 자리의 정밀도로 예측할 수 있어야 합니다. 그런데, 현실적으로 완벽한 랜덤 표본이 아닌, 왜곡된 표본으로부터 표준편차를 그 정도 정확도로 추정해 내는 것은 불가능합니다.

표준점수 증발은 소수점 이하 첫째 자리가 5 전후일 때 발생하는데, 추정되는 표준점수의 소수점 이하 첫째 자리가 불확실성을 가지므로, 표준점수 증발이 발생할 확률은 랜덤 표본이 없는 상태에서는, 임의의 원점수에 대해서 동일하다고 전제할 수밖에 없습니다.

표준점수 증발이 발생할 확률의 계산

표준편차를 s라고 할 때, 수리 나형에서 원점수 1점 당 표준점수의 변화가 20/s 임은 상술하였습니다.

따라서 원점수 100점의 변화에 대해서는 2000/s 점이 변하는 것이고, 만약 2000/s 가 100보다 작다면, 100-2000/s 개의 지점에서 표준점수 증발이 일어난 것입니다.

즉, 임의의 원점수에 대하여 표준점수 증발이 발생할 확률은 (100-2000/s)% = 1-20/s 입니다.

이번 시험에서 수리 나형의 표준편차는 대략 27.1 정도로 추정되고 있습니다.

따라서, 임의의 원점수에서 표준점수 증발이 발생할 확률은 1-20/27.1=약 26% 입니다.

표준점수 증발에 따른 임의의 원점수에서의 등급컷 형성 확률 변화

표준점수 증발이 없었다면 원점수 i에서 등급컷이 발생했을 확률을 p(i)라고 하고, 표준점수 증발이 발생할 확률을 q라고 합시다.

표준점수 증발이 발생할 확률이 원점수 전구간대에서 동일하다고 가정하였으므로,

표준점수 증발이 고려된 상태에서, 원점수 i에 등급컷이 발생할 확률은 qp(i+1)+p(i)-qp(i)가 됩니다.

좀 더 이해하기 쉽게 표현하면, 원래 i점에서 등급컷이 발생할 확률에, i+1점에서 등급컷이 발생하고 동시에 i+1점에서 표준점수 증발이 발생해 원점수 기준 등급컷이 i점 까지 내려올 확률을 더하고, i점에서 등급컷이 형성되었으나 동시에 i점에서 표준점수 증발이 발생해 원점수 기준 등급컷이 i-1점으로 내려갈 확률을 빼면 됩니다.

수리 영역 나형에 적용

위에서 언급하였던, 각 원점수별 1등급 컷 형성 확률

에 표준점수 증발의 변수를 반영하면, 각 원점수에서 1등급 컷이 형성될 확률은 다음과 같이 변합니다.

원점수 1등급컷 형성확률

96 26% * 0.1% + 40% - 26% * 40% = 약 30%

95 26% * 40% + 0.1% - 26% * 0.1% = 약 10%

94 26% * 0.1% + 1% - 26% * 1% = 약 1%

93 26% * 1% + 15% - 26% * 15% = 약 11%

92 26% * 15% + 43% - 26% * 43% = 약 36%

91 26% * 43% + 0.1% - 26% * 0.1% = 약 11%

그래프로 표시해 보면,

이에 따른 1등급컷의 기대값, 즉 integral p(i) di 는 93.52 정도로, 1등급컷에 대한 오차 기대값을 최소화 할 수 있는 정수는 94입니다.

결론

1. 우리의 추정에 따르면 1등급컷이 형성될 가능성이 가장 높은 지점은 원점수 92점으로 이 지점에서 1등급이 형성될 확률은 36% 정도입니다.

2. 1등급컷이 형성될 가능성이 그 다음으로 높은 지점은 원점수 96점으로 확률은 30% 정도입니다. 92점에서 1등급이 형성될 가능성과 거의 대등합니다.

3. 1등급컷의 기대값인 94를 추정치로 잡으면 신뢰의 위기, 즉 오차는 최소화할 수 있습니다. 하지만 이 지점에서 1등급컷이 형성될 확률은 1%미만에 불과합니다. 92점과 96점에서 1등급컷이 발생할 확률이 거의 같지만, 92점에서의 확률이 미세하게 더 높으므로, 공식 추정치는 92점으로 발표하는 것이 타당하다고 판단하여, 그렇게 결정하였습니다.

첨언 (11/15 09:21)

댓글을 읽다 보니 글의 본 의도와 다르게 해석하고 계신 분들이 있어 몇 문장 첨언합니다.

1. 이 글의 의도는 다음과 같은 상황을 설명하기 위한 것입니다. 올해 수리 나형 시험 점수 분포의 특수성으로 인해 92점과 96점 사이 도수가 거의 없어서, 다른 영역에서라면 1점의 오차를 낼 정도의 불확실성만으로도 4점의 오차를 만들어 버릴 수 있습니다. 92점에서 컷이 나와도 다른 입시 기관이 바보여서 그런 게 아니고, 반대로 96점에서 컷이 나와도 오르비가 정말 큰 실수를 해서 그런 게 아니라는 뜻입니다. 다들 아슬아슬한 오차였을 뿐입니다.

2. 92점과 96점의 가능성이 거의 동일한데, 92점일 가능성이 약간 더 높다 보니 그렇게 표기를 한 것 뿐, 92점을 대단히 지지하는 것도 아닙니다. 절대적인 확률만 놓고 보면 92점에서 컷이 잡힐 확률은 반이 넘는 것도 아니고 고작 1/3밖에 안 됩니다. 물론 96점에서 컷이 잡힐 확률도 1/3 정도입니다.

3. 수리 나형 1등급 컷이 92점에서 96점으로 올라가면 언수외 합산 점수 1% 컷(이하 언수외 1%컷)도 4점 올라가는가? 그렇지 않습니다. 커트라인 그 자체보다 더 중요한 건 수리 나형 1등급 안에서의 점수 분포입니다. 만약 96점 이상 득점자 비율이 우리가 추정한 3.7%에서, 약간 더 올라가 4.1% 같은 식이 되어서 96점이 컷으로 잡힌 경우라면, 언수외 1%컷은 거의 변하지 않을 것입니다. 다만 96점 이상 득점자 비율이 6%, 7% 하는 식으로 올라간 경우라면 언수외 1%컷도 올라갈 것입니다. 한편, 나형 1등급 컷이 우리 추정 대로 92점이 나온다고 해서, 관습적으로 언어 1컷+수리 1컷+외국어 1컷이 몇 점이니 거기에 몇 점을 더하면 거기가 언수외 1%컷이다 같은 식으로 쉽게 생각하셔도 안 됩니다. 수리영역에서 1등급을 받은 학생의 비율이 4%일 때와 9%일 때의 계산법이 같을 수 없기 때문입니다.

4. 팩트는 팩트고, 마케팅은 마케팅이다 보니, 수리 나형 컷이 92점이 되면, 오르비도 신나게 빵빠레 울리겠지만, 그래도 혼자 걷는 길이다 보니 솔직히 우리도 많이 찜찜합니다.

5. 그래도 찜찜하다고 해서, 다른 기관을 따라 숫자를 바꿀 수는 없었습니다. 자료는 통계에 근거해서 발표해야지, 육감에 근거해서 발표할 수 없기 때문입니다. 92를 96으로 수정하려면 96점에서의 확률이 더 높게 나와야 하는데 현재까지 우리가 가지고 있는 기준 자료에 의해서는 그렇지 않았기 때문입니다. (그럼에도 불구하고, 단순히 이것은 통계이기 때문에, 96점에서 등급컷이 나올 수 있습니다. 그럴 확률이 1/3이나 되고요.) 위에서 표기한 77.97% 라는 경계선이 나온 이유에 대해서도 설명하려면 이 글만큼 길게 설명할 수 있습니다. 그런 식으로 이론적인 근거가 있어야 합니다. 만약 이번에 우리 추정에 오차가 발생한다면, 하나의 근거가 더 쌓일 것이고, 그 근거에 기반하여 내년에는 더 정확한 추정을 할 수 있게 될 것입니다.

6. 우리가 하는 일이 통계이지만, 그럼에도 불구하고 '통계의 기만'에 대해 주지시켜 드리고 싶습니다. 수학적인 공리라면 모를까, 통계는 그저 가능성과 불확실성이 뒤범벅되고 층층이 쌓인 '참조할 만한 가치는 있는 정보'일 뿐이지 믿음이나 신앙의 대상이 아닙니다. 그러한 불확실성 때문에 많이 불안한 것을 이해하지만 향후 누가 얼마나 맞고 틀리는 문제에 대해 지나치게 감정적으로 반응하지는 말아 주십시오. 그럴수록 기관들이 소신을 갖고 통계 자료를 내놓지 못하게 되어, 점점 더 틀려도 별 문제가 없는 안정적인 숫자들만 제시하게 되고, 그로 인한 피해는 결과적으로 선량한 수험생들이 입게 됩니다.