코드킴 [726956] · MS 2017 · 쪽지

2018-08-19 13:45:15
조회수 13,563

코드킴의 정보량이 많은 지문에서의 정보 정리법

게시글 주소: https://orbi.kr/00018148284

원래는 인문논술을 가르치는 코드킴입니다.


오랜만에 국어 글을 쓰네요.


누가 써달래서 써주는 글입니다.


국어에 관한 글은 잘 안 씁니다만... 하도 보채서;


그리고 가만히 앉아있는 나 자신을 보아하니 참으로 작고 딱하게 보여서요.


이 글(독수리 아님)이라도 써야겠습니다.

--

정보량이 많은 지문들을 읽을 때에 어려움을 겪는 분들이 계십니다.


그분들을 위해 씁니다.


--


1.

일단 제가 가진 글에 대한 방법론에 대해 말씀드리자면,


우리가 만나는 글은


문제/결론 -> 정보/개념 -> 목적, 관점, 함축


의 구조로 이루어져 있습니다.


문제 상황이 등장하고(등장하지 않을 때도 있습니다), 그에 대한 해답으로 결론이 등장하며, 이 결론을 지지해주는 정보와 개념이 등장합니다.


그리고 문제에서는 피상적으로 결론, 정보와 개념 끼리의 관계를 물어보는 것을 넘어서,


우리가 이 결론과 전제를 받아들였을 때에 어떤 주장도 같이 받아들이게 되는가?(함축) 까지 물어봅니다.


그렇다면 우리는 글을 읽을 때에 결론을 찾아내고, 정보와 개념을 정리하여, 문제에서 물어보는 함축까지 도달해야 합니다.


2. 

그러나 여러분들 중에는 결론을 찾는 것엔 문제가 없지만, 그를 지지해주는 정보와 개념을 정리하는 데에 문제가 생기시는 분이 존재합니다.


정보 정리의 어려움은 함축을 찾느냐 못 찾느냐와 직결된 문제이고 이는 당연히 문제 풀이에 있어서 오답으로 이어질 수 있기에, 해결해야 할 문제입니다.


3.

정보량이 생각보다 많았던 부호화 지문을 통해 알아보도록 합시다.

정보 정리를 위해서는 각각에 이름을 붙여보는 것이 편리합니다.

정의가 나온다면 ~의 정의, 정보들 간의 관계가 나온다면 어떤 관계인지, 정비례인지 반비례인지.

아니면 인과 관계인지, 필요인지 충분인지, 순서 상의 선후.. 등등을 따져보시면 됩니다.


정의에 대하여서도 설명하자면,

대부분의 정의는 '조건, 양상 + 가치, 이유' 의 형태로 등장합니다.

이해를 돕기 위해 예를 들어보죠.

이 글에서 나오는 '채널 부호화'를 정의하자면

'채널 부호화의 조건, 양상' + '채널 부호화의 가치, 존재 이유'

로 정의가 가능하다는 것입니다.

읽다보면 확인이 가능하시겠지만, 미리 말씀드리자면 

채널 부호화의 조건과 양상은 '부호에 잉여 정보를 추가하는 과정' 이며

그 이유는 '오류를 검출하고 정정하기 위하여' 입니다.


그렇다면 채널 부호화의 정의는

'오류를 검출하고 정정하기 위해(가치,이유) + 부호에 잉여 정보를 추가하는 과정(조건, 양상)'

이라고 할 수 있겠군요.


이제 글을 읽어보도록 합시다.



 디지털 통신 시스템은 송신기, 채널, 수신기로 구성되며, 전송 할 데이터를 빠르고 정확하게 전달하기 위해 부호화 과정을 거쳐 전송한다. 영상, 문자 등인 데이터는 기호 집합에 있는 기호들의 조합이다. 예를 들어 기호 집합 {a, b, c, d, e, f}에서 기호들을 조합한 add, cab, beef 등이 데이터이다. 정보량은 어떤 기호가 발생했다는 것을 알았을 때 얻는 정보의 크기이다.어떤 기호 집합에서 특정 기호의 발생 확률이 높으면 그 기호의 정보량은 적고, 발생 확률이 낮으면 그 기호의 정보량은 많다. 기호 집합의 평균 정보량*을 기호 집합의 엔트로피라고 하는데 모든 기호들이 동일한 발생 확률을 가질 때 그 기호 집합의 엔트로피는 최댓값을 갖는다.



첫 문단입니다. 여러 중요 어휘들의 정의를 설명하고 있습니다.

우리가 알 수 있는 정의는 디지털 통신 시스템의 구조/역할, 데이터의 정의, 정보량의 정의, 기호집합의 엔트로피의 정의군요.

이들은 대충 정리하도록 합시다. 

여기에서 정보들의 관계도 나타나 있습니다.

"특정 기호의 발생 확률이 높으면 그 기호의 정보량은 적고, 발생 확률이 낮으면 그 기호의 정보량은 많다."

-> '높을 때 적고, 낮을 때 많다.'

대충 반비례하는 관계에 놓여있음을 알 수 있습니다.

또한, 기호 집합의 엔트로피의 정의를 설명하면서 엔트로피에 대한 관계도 알아볼 수 있습니다.

"모든 기호들이 동일한 발생 확률을 가질 때 기호 집합의 엔트로피는 최댓값"

-> '동일 -> 최대'

식으로 간단히 정리해줍시다.


 송신기에서는 소스 부호화, 채널 부호화, 선 부호화를 거쳐 기호를 부호로 변환한다. 소스 부호화는 데이터를 압축하기 위해 기호를 0과 1로 이루어진 부호로 변환하는 과정이다. 어떤 기호가 110과 같은 부호로 변환되었을 때 0 또는 1을 비트라고 하며 이 부호의 비트 수는 3이다. 이때 기호 집합의 엔트로피는 기호 집합에 있는 기호를 부호로 표현하는 데 필요한 평균 비트 수의 최솟값이다. 전송된 부호를 수신기에서 원래의 기호로 복원하려면 부호들의 평균 비트 수가 기호 집합의 엔트로피 보다 크거나 같아야 한다. 기호 집합을 엔트로피에 최대한 가까운 평균 비트 수를 갖는 부호들로 변환하는 것을 엔트로피 부호화라 한다. 그중 하나인 ‘허프만 부호화’에서는 발생 확률이 높은 기호에는 비트 수가 적은 부호를, 발생 확률이 낮은 기호에는 비트 수가 많은 부호를 할당한다.


이제 두번째 문단입니다. 송신기에 대한 내용이 나와있군요.

어째서 갑자기 송신기 이야기를 할까요? 

이전 문단인 첫번째 문단에서 디지털 통신 시스템의 구조를 설명할 때, 송신기, 채널, 수신기로 구성되어 있다고 했으니까요.

이처럼, 어떤 정보들은 뒤에서 추가적으로 설명이 덧붙여지는 경우가 존재합니다.

그렇기 때문에 각 문단들을 유기적으로 연결해가며 읽는 게 필요합니다. 

이를 위해서는 스스로에게 질문을 던져가며 읽는 능동적 독해가 요구됩니다.

"이 정보가 왜 등장했지??" 하는 의문을 가지는 겁니다.
한편, 여기에서 송신기에 대한 설명이 나와있으니, 다른 문단에는 채널과 수신기에 대한 설명이 존재할 것임을 추측해나갈 수 있군요.


이제 이 문단에서의 정보도 정리해봅시다.

여기에서도 관계가 등장하는군요.

"순서"의 관계입니다.

"송신기에서는 소스 부호화, 채널 부호화, 선 부호화를 거쳐 기호를 c 부호로 변환한다."

->'소스 부호화 - 채널 부호화 - 선 부호화'

또한, 소스 부호화에 대한 이야기가 나와있으니, 위에서 추론했던 것처럼, 

채널 부호화와 선 부호화에 대한 설명도 등장할 것임을 예측할 수 있습니다.


이곳에서 새로운 정보도 등장합니다. 비트에 관련된 설명이군요.

비트, 비트 수에 대한 개념도 정리해두도록 합시다.

비트는 압축을 위해 만들어진 0,1 부호. 비트 수는 몇개인가.

또한 기호 집합의 엔트로피에 대한 새로운 정보도 있습니다.

"평균 비트 수의 최솟값 = 기호 집합의 엔트로피"


이에 대해 정보의 관계도 등장합니다.

"암호화된 부호를 원래대로 복원하려면 평균 비트 수가 기호 집합의 엔트로피 보다 작아서는 안 된다.(크거나 같아야 한다.)"


엔트로피 부호화라는 새로운 정의와, 그 중 하나인 허프만 부호화의 정의도 등장합니다.

그러나 이들의 관계를 간과하시면 안됩니다.

허프만 부호화는 엔트로피 부호화의 일종이니, 엔트로피 부호화의 특성을 허프만 부호화도 가질 것이라는 겁니다.

이쯤 정리했다면 정보를 전부 정리한 것입니다. 



 채널 부호화는 오류를 검출하고 정정하기 위하여 부호에 잉여 정보를 추가하는 과정이다. 송신기에서 부호를 전송하면 채널의 잡음으로 인해 오류가 발생하는데 이 문제를 해결하기 위해 잉여 정보를 덧붙여 전송한다. 채널 부호화 중 하나인 ‘삼중 반복 부호화’는 0과 1을 각각 000과 111로 부호화한다. 이때 수신기 에서는 수신한 부호에 0이 과반수인 경우에는 0으로 판단하고, 1이 과반수인 경우에는 1로 판단한다. 즉 수신기에서 수신된 부호가 000, 001, 010, 100 중 하나라면 0으로 판단하고, 그 이외 에는 1로 판단한다. 이렇게 하면 000을 전송했을 때 하나의 비트에서 오류가 생겨 001을 수신해도 0으로 판단하므로 오류는 정정 된다. 채널 부호화를 하기 전 부호의 비트 수를, 채널 부호화를 한 후 부호의 비트 수로 나눈 것을 부호율이라 한다. 삼중 반복 부호화의 부호율은 약 0.33이다.


이제 채널 부호화에 대한 이야기가 나오는군요.
또한 동시에, 채널에 대한 이야기도 등장합니다.

채널에 대한 이야기를 채널 부호화의 중점으로 설명하고 있다고 할 수 있겠군요.

그렇다면 채널 부호화에 대해 정의를 알아보죠.

'오류를 검출하고 정정하기 위해(가치,이유) + 부호에 잉여 정보를 추가하는 과정(조건, 양상)'

여기에 가치와 이유에 부연 설명을 덧붙이고 있습니다.

'송신기 -> 채널 과정에서 채널의 잡음으로 발생하는 오류를 해결하기 위함'

이를 바탕으로 채널 부호화에 대한 정의를 보완하면

'송신기 -> 채널 이동 과정에서 채널의 잡음으로 발생하는 오류를 검출하고 해결하기 위해서(가치, 이유) + 부호에 잉여 정보를 추가하는 과정(조건, 양상)'

이 됩니다.


그 다음으로는 채널 부호화에 대한 정보로 '삼중 반복 부호화'가 나오는군요. 

해당 정의는 사례로 등장했는데 한번 머릿속에서 정리하도록 합시다.


'하나의 부호를 3중으로 만들기 위해(0 -> 000, 1->111) 잉여 정보(00,11)를 덧붙이는 것(조건, 양상) + 송신기 -> 채널 이동 과정에서 채널의 잡음으로 발생하는 오류를 검출하고 해결하기 위해서(가치, 이유)'


위 정의에서 살펴볼 수 있는 것은 삼중 반복 부호화도 채널 부호화의 일종이기에, 같은 가치와 이유를 공유합니다.

허나 채널 부호화들 중에서도 삼중 반복 부호화를 오직 삼중 반복 부호화로 만들어주는 조건과 양상이 존재하죠.

그렇게 정리를 해줍시다.


또한 부호율에 대한 이야기도 나와있네요.

부호율 : 하기 전 부호의 비트 수를 채널 부호화를 한 후 부호의 비트 수로 나눈 것.

부호율 : '하기 전/한 후.'

로 정리가 가능하군요.

이를 응용하면

5중 반복 부호화라고 한다면

0 -> 00000, 1 -> 11111의 형태일 것이고

00001 -> 0 , 11110 -> 1

또한 이 부호화의 부호율은 1/5 가 될 것 같습니다.


이처럼 어떤 개념이 등장한다면 해당 개념이 어떻게 변용될 수 있을지,

즉, 어떤 상황 하에서 우리는 그것을 어떻게 받아들이게 되는지.

이러한 함축까지도 미리 생각하며(가능하다면) 읽어봅니다.


채널 부호화를 거친 부호들을 채널을 통해 전송하려면 부호들을 전기신호로 변환해야 한다. 0 또는 1에 해당하는 전기 신호의 전압을 결정하는 과정이 선 부호화이다. 전압의 e 결정 방법은 선. 부호화 방식에 따라 다르다.선 부호화 중 하나인 ‘차동 부호화’는 부호의 비트가 0이면 전압을 유지하고 1이면 전압을 변화시킨다. 차동 부호화를 시작할 때는 기준 신호가 필요하다. 예를 들어 차동 부호화 직전의 기준 신호가 양(+)의 전압이라면 부호 0110은 ‘양, 음, 양, 양’의 전압을 갖는 전기 신호로 변환된다. 수신기에서는 송신기와 동일한 기준 신호를 사용하여, 전압의 변화가 있으면 1로 판단하고 변화가 없으면 0으로 판단한다.


이제 마지막 문단입니다.

위 문단들을 통해 여러 정보들을 봤는데, 아직 남은 정보들이 존재합니다.

바로 통신 시스템에 있어서 수신기에 대한 이야기와 송신기에서의 선 부호화에 대한 이야기입니다.

예상대로 선 부호화에 대한 이야기가 등장하고, 송신기에 대한 이야기도 등장하는군요.

위에서 쭉 해왔던 방식대로 선 부호화에 대한 정의를 내리면

'채널 부호화를 거친 부호들을 채널을 통해 전송하기 위해(가치, 이유) + 부호들을 전기 신호로 결정, 변환하는 것(조건, 양상)'

이 되는군요.


또한 이 중 하나인 차동 부호화에 대한 설명도 등장합니다.

마찬가지로 선 부호화의 일종이기에 같인 가치와 이유를 공유하니, 조건과 양상만 살펴봅시다.

'부호의 비트가 0이면 전압을 유지하고 1이라면 전압을 변화시키는 선 부호화(조건, 양상)'

이군요.


더 자세한 내용은 사례를 통해서 설명하는 구조입니다.

---


4.

이처럼 부호화 지문을 통해서 정보 정리의 방법을 알아보았습니다.

이를 정리하자면 다음과 같습니다.


정보 정리의 기본은 정의의 설정.

정보 정리를 위해서는 관계 설정이 중요.

관계의 종류로는 순서, 인과, 필요-충분, 비례 등이 존재.


그리고


정보가 나오는 것에는 항상 이유가 존재한다는 겁니다.

어떤 정보가 나온다면 그 정보는 어떤 것을 부연 설명하기 위해 존재하는 것일 수 있고,

어떤 정보는 어떤 정보에게 부연설명을 받고 있기에 미미하게 설명하고 넘어가는 경우도 있습니다.


해당 경우들을 모두 파악하시며 글을 읽는다면


정보 정리에 있어서 더 이상 허덕이지 않으실 겁니다.


2018.08.19


코드킴.

rare-제헌이 S

0 XDK (+5,440)

  1. 2,000

  2. 10

  3. 10

  4. 100

  5. 1,000

  6. 10

  7. 1,000

  8. 100

  9. 100