비 샨 [907058] · MS 2019 (수정됨) · 쪽지

2021-03-02 22:44:12
조회수 331

2013 수능 45번 문항 해설 오류? [43~45] 음성 인식 기술

게시글 주소: https://orbi.kr/00036535165

안녕하세요. 2013학년도 수능 45번 문제에 관하여 글 올립니다. 

문제를 풀고 해설을 보면서 생각 해보는데 찜찜함이 있어 제가 비록 해당 분야에 대해 일가견이 있는 것은 아니나 고등학교 과정 내에서 충분히 생각할 수 있는 내용을 바탕으로 저의 생각을 전개해볼테니 많은 의견 부탁드립니다. 앞서, 글을 일목요연하게 쓰지 못해 가독성이 떨어질 수 있다는 점 미리 양해부탁드립니다.


문제가 되는 문항은 45번 문항입니다. 왜인지 알아보기 위해 먼저 지문의 전반적인 내용부터 살펴 가볍게 정리해보고 넘어가겠습니다.


글의 내용을 대략 정리하면 이렇습니다.


음성을 인식하기 위해 이를 음성 신호로 바꾼 뒤, 이를 일정한 단위인 '단위 구간'으로 나누고 적당히 하나 또는 연속된 단위들로 묶어 '음소 추정 구간'을 만듭니다. 이후 각 음소 추정 구간에서 수치화된 정보인 '특징 벡터'를 하나씩 뽑아낸 뒤 이를 구간 순서대로 배열해 입력패턴을 생성합니다. 그리곤 각 단어의 음소들의 배열인 '기준 패턴'과 입력 패턴의 각각의 특징 벡터의 차이를 모두 더해 '패턴 거리'를 구합니다. 이때 나올 수 있는 패턴 거리의 가능한 모든 경우를 각각 구합니다.


여기서 지문의 a에 해당하는 내용은 생성 가능한 패턴 거리를 '모두' 구하는 과정이었고 이 a의 처리 시간을 증가시키는 요인으로 올바른 것을 고르는게 45번 문제였습니다.


그렇다면 선지를 보기 전에 지문 내용을 토대로 a에 영향을 주는 요인들을 살펴본 뒤 이를 일반화하도록 하겠습니다.


연산량이 많을수록 처리 시간이 길어지므로 결국 연산량에 영향을 주는 요인을 생각하면 됩니다. 이때 지문에 나온 연산량에 영향을 주는 요인은 크게 3가지가 있습니다.


첫번째 '특징 벡터를 구성하는 정보의 가짓수'입니다. 3문단에 따르면 사용하는 정보의 가짓수가 많을수록 음소를 더 정확하게 인식할 수 있지만 연산량이 많아진다고 했습니다.

따라서 '특징 벡터를 구성하는 정보의 가짓수'는 양의 상관관계를 가지는 요인이라 볼 수 있습니다.


두번째는 '음소' 즉, '음소 추정 구간'의 개수와 '단위 구간'의 개수입니다. 지문을 읽다보면 단순히 '음소 추정 구간(=음소)'의 개수가 많을수록, '단위 구간'의 개수가 많을수록 연산량이 많아진다고 생각할 수 있으나 사실은 그렇지 않습니다. 이유는 다음과 같습니다.

위 2가지 변수를 각각 k, n 이라고 하겠습니다.

그렇다면 연산의 길이와 관계없이 횟수만을 연산량으로 생각한다면 연산량은 다음과 같이 나타낼 수 있습니다. (이 부분에 논리적 비약이 있을 수 있으나 횟수만으로 연산량을 판단해도 무방할 것 같아 이 부분은 넘어가겠습니다.)


먼저 패턴 거리 하나당 연산량은 "k+1"(k≠1)이 됩니다.

이유: '음소 추정 구간' 당 '특징 벡터'의 차이를 계산하는 과정이 k번 있고 이 차이를 모두 더하는 과정 1번을 더해 'k+1'입니다. 만약 k=1이라면 모두 더하는 과정이 생략되므로 그냥 k입니다.


또한 패턴 거리의 가짓수는 "n-1 C k-1"이 됩니다.

이유: 단위 구간 n개를 각각 연속하게 음소 추정 구간의 개수인 k개로 나눠야 하므로 단위 구간 n개 사이사이에 n-1개의 칸막이 중 k-1개를 선택해 k개의 구간으로 만들어 준다고 생각하면 n-1 C k-1 이 됩니다. (고등학교 확률과 통계)


따라서 연산량은 둘의 곱인 "(n-1 C k-1)*(k+1)"임을 알 수 있습니다.

 (k≠1, k=1일때는 n-1 C k-1*k, 사실상 1.)

여기서 알 수 있는 사실은 다른 변수를 고정시키면 n의 값, 즉 단위 구간의 개수는 n이 증가할수록 연산량이 커지는 양의 상관관계를 갖지만, k의 값, 다시 말해 음소 혹은 음소 추정 구간의 개수는 증가함에 따라 연산량이 증가하다 어떤 값부터 작아짐을 알 수 있습니다.


* n-1 C k-1의 그래프는 선대칭인 ∩ 모양의 그래프를 가지고 여기에 (k+1) 을 곱하면 그래프의 모양이 살짝 오른쪽으로 치우쳐져 다음과 같은 모양을 갖게 됩니다.

(물론 k값이 정수가 되어야 하긴 하나 편의상 위와 같이 그렸습니다.)


즉, 만약 k값(음소, 음소 추정 구간의 개수)이 증가함에 따라 연산량이 증가한다고 생각했다면 이는 잘못된 생각입니다. 왜냐하면 지문에서 a는 생성 가능한 패턴 거리를 '모두' 구하는 과정이기 때문입니다. 이 '모두' 구하는걸 빼먹으면 단순히 'k+1'로만 생각해 비례라고 생각하게 됩니다.


또한 이런 생각을 하지 못했더라도 지문에 나와 있는 예시를 통해 생각해봐도 무언가 이상함을 느낄 수 있습니다.

지문에 나온 예시인 단위 구간의 개수, n의 값이 3인 상황을 생각해본다면

각각 k값에 따라

k=1일 때 연산량은 1

k=2일 때 연산량은 6

k=3일 떄 연산량은 4     => k값과 연산량이 비례하지 않는다는 것을 알 수 있음.


이제 45번 문제를 보도록 하겠습니다.

이 문제는 여러 변수들을 고려해 연산량이 어떻게 되는지 확인하는 문제가 아닌(1909 STM 등 여러 기출문제)

연산량을 증가시키는 요인을 고르는 문제이므로 각 선지에 해당하는 변수만 고려해야 합니다.


1번 선지.

특징 벡터를 구성하는 정보의 가짓수는 연산량과 양의 상관관계를 가집니다. 따라서 해당 선지는 '감소=>증가' 가 되어야 적절합니다.


2, 5번 선지.

제가 해설에 의문을 느꼈던 선지입니다.

모두 k값의 감소를 의미하는 선지입니다. 그런데 k값은 연산량에 비례하지 않으므로 해당 선지들은 적절하지 않음을 알 수 있습니다.

만약 이들을 '감소'가 아닌 '증가' 라고 바꿔야 적절하다고 해설했다면 이는 잘못된 해설입니다. 왜냐하면 k값이 증가하더라도 '패턴 거리'의 경우의 수가 줄어 연산량이 줄어들 수 있기 때문입니다. 다시말해 이는 증가요인이나 감소요인이나 어느쪽으로든 단정할 수 없습니다.


4번 선지(정답 선지).

n의 값의 증가를 의미하는 선지입니다. 다른 변수가 동일하다면 n이 커질수록 연산량은 늘어나기에 적절합니다.


3번 선지.

역시나 해설에 찜찜함을 느꼈던 선지입니다.

만약 3번 선지를 k값의 감소의 의미로 생각했다면 오독입니다. 이 선지의 근거문장은 1문단에 있습니다. 1문단에 나온 정의에 따라 '기준 패턴'은 '각 단어의 음소들의 배열'을 의미합니다. 따라서 선지는 '기준 패턴' 경우의 수가 늘어난다는 얘기고, 1문단 밑으로 쭉 설명되는 내용은 기준 패턴 하나 당 연산 과정을 의미합니다. 따라서 지문에 명시적으로 나와있진 않지만 '기준 패턴'의 가짓수가 늘어난다면 연산량 역시 늘어난 만큼 배가 될 것이라 미루어 짐작 가능합니다.



제가 비록 모든 시중 해설서를 확인해보진 못했으나 제가 현재 가지고 있는 마더x 문제집은 2, 3, 5번 선지 해설에 찜찜한 부분이 많았고 EBS해설을 찾아보니 정답 선지인 4번을 제외하곤 해설이 없더군요. 아무쪼록 많은 의견 부탁드립니다.

0 XDK (+0)

  1. 유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.