내 소식

Cognita Sapiens [847641] · MS 2018 · 쪽지

2026-01-18 18:14:17
조회수 305

사람을 보는 안목에 대한 뇌과학 -2 (TEM 톨만 아이덴바흠 머신)

게시글 주소: https://orbi.kr/00077095134





 분량을 나눴는데도 너무 하고 싶은 말이 많아져서 분량 조절에 실패했네요. 누차 강조했듯이 1편은 어디까지나 2편을 위한 빌드업이며, 1편은 철저히 개인적인 경험에서 발단이 되어 얼마 전 공부한 TEM에 대한 논문까지 떠오른 생각들을 직관을 중심으로 전개한 글이었습니다. 2편에서는 안심하고 여러분이 읽을 수 있도록 최대한 TEM 원문 내용에 충실하면서도 쉬운 이해를 위해 지나친 일반화나 지나친 단순화를 최대한 지양하도록 하겠습니다.







 1편 마지막 부분에서 언급했던 수열 이야기를 다시 꺼내보겠습니다. 예컨데 아래와 같이 전개되는 수열이 있다고 생각해봅시다.



 1, 2, 4, 8, 16, 32, 64, 128, 256, 512.... 이 수열이 굉장히 길~~게 이어졌다고 상상해봅시다.



 여러분이 처음 첫 번째 항과 두 번째 항만 보았을 때는, 이후의 전개를 예측하기가 대단히 어렵고 힘들며, 예측을 한다 하더라도 정확성이 많이 떨어질 것입니다. 1 -> 2 가 되었는데, 이게 과연 +1씩 되는 규칙을 가진 것인지, 아니면 x2를 하는 규칙인지 혹은 상상하기 어려운 다른 규칙이 있는 수열인지 바로 판단하기가 힘들죠.



 하지만 여러분은 한 32까지만 보아도, 어렵지 않게 대부분 이것은 2배씩 증가하는 수열이라고 예상하실 수 있을 것입니다. 물론 지금도 확신은 할 수 없습니다 확신을 하려면 이 수열의 정의식을 보아야 하죠. 그런데 정의식을 보지 못하고 결과값만 계속 관찰하니까, 그나마 관찰한 값들을 가장 합리적으로 잘 설명할 수 있는 가설을 세우게 되고, 그 가설을 바탕으로 다음에 올 수를 추론하게 된다는 것입니다.






 이렇듯 관찰을 통해 사후적으로 예상 확률을 계속 업데이트하는 방식의 확률론을 베이지안 추론이라고 합니다. 뇌과학에서 매우 중요하게 쓰이는 것인데 왜냐하면 뇌가 실제로 이런 식으로 작동하는 것으로 강하게 의심이 되거든요. 1편 마지막에 칼 프리스턴 교수님을 잠깐 언급한 것처럼, 뇌는 계속해서 시뮬레이션을 하고 능동적으로 가설을 세워서 이 세상을 예측하려고 노력합니다. 이때 지속적으로 들어오는 정보들을 통해서 사전 확률(정보를 보기 전에 가지고 있던 믿음)을 사후 확률(정보를 본 이후 업데이트 된 최신 확률)로 업데이트를 합니다.



조건부 확률을 공부할 때 많이 보던 식들이 등장합니다. 위의 설명은 어디까지나 알기 쉽게 직관적으로 말로 풀어서 설명한 것이고, 정말 엄밀한 내용은 상당히 깊으니 관심 있으시면 찾아보시길 권합니다

https://angeloyeo.github.io/2020/01/09/Bayes_rule.html




 그런데 중요한 것은 생물에게 시간은 무한정 주어지지 않았다는 것입니다. 적당한 시점에서 끊어서 현실과 타협을 해야 합니다. 당연히 정확한 정보는 우리의 리스크를 줄여주므로 아주 좋지만, trade off의 논리를 설명한 바와 같이 정확성만을 추구하다가는 시간을 완전히 포기해서 결과적으로 쓸모 없는 정보가 될 수도 있습니다. 때문에 우리는 적당한 시점(당연히 사람마다, 성향과 성격마다, 처해진 상황과 맥락에 따라서 계속 달라지겠죠)에서 타협을 하고 나름의 결론을 내려야 합니다.



 아까 위에서 봤던 2배씩 커지는 수열을 다시 생각해봅시다. 예컨데 한 100만번째 항까지 보니까 여전히 x2의 규칙이 적용되고 있다고 생각해봅시다. 그럼 100만 + 1 번째 항도 x2의 규칙을 따를 것이라고 예상할 수 있는데 이때 정확도가 99.99%라고 생각해봅시다.



 약간 좀 더 일찍 (상대적으로) 과감한 추론을 해볼까요. 90만번째 항까지 본 사람이 있다고 생각해봅시다. 90만번째 항까지 본 사람도 마찬가지로 지속적으로 x2의 규칙을 발견하고 있으며, 그래서 90만 + 1번째 항 또한 x2의 규칙이 적용되리라 예상했습니다. 이때의 정확도는 99.99%보다 아주아주 살짝 낮은 99.98% 정도로 생각할 수 있을 것입니다.



 그런데 문제는 여기서 실익이 너무나도 의미가 없어진다는 것입니다. 체감상 99.99%나 99.98%나 상당히 100%에 근접한 매우 높은 정확도로 보입니다. 그런데 더욱더 완벽을 추구하면서 0.01% 포인트의 정확성을 위해서, 추가로 항을 10만개씩이나 관찰한다? 라고 한다면 그다지 현명한 선택은 아닌 듯 합니다.







 거꾸로 극단적으로 가장 첫 항에서부터 예측을 시도한다고 생각해보면 이때는 속도(항을 90만개 100만개씩이나 관찰할 시간을 절약하니까)가 확보되지만 거꾸로 정확성에서 만족스러운 확신을 담보할 수 없습니다. 극단적으로 딱 첫 번째 항 1만 보고 뒤의 항을 예상하라고 하면 얼마나 정확할까요? 양심적으로 수능 문제에서도 항은 최소 3개는 주고 시작합니다. 맨 앞에 1로 시작하는데 뒤에 2가 올지 3이 올지 4가 올지 9998이 올지 어떻게 확신을 할 수 있겠습니까? 이때는 속도에서는 압도적으로 유리하지만 정확성이 형편없기에 그다지 합리적인 추론으로 보이지 않습니다.



 그런데 1을 넘어서 두 번째, 세 번째 항만 제시되도 이때는 속도를 너무 크게 희생하지 않으면서도 정확성을 대단히 효율적으로 올릴 수 있습니다. 1만 보았을 때는 뒤에 정말 무수히 많은 종류의 숫자가 올 수 있어서 정확히 예측할 확률이 0%에 수렴했지만, 두 번째 항이 2이고 세 번째 항이 4이면 벌써부터 슬슬 x2배수 규칙이 유력한 용의자로 떠오르기 시작합니다. 한 8이나 16까지만 가도 벌써 손을 들고 확신을 선언하는 학생들도 나올 것입니다.



 물론 수식이 정말 괴랄해서



 a_n = 2x + (x-1)(x-2)(x-3)(x-4)(x-5) 꼴이라서 딱 수열이 5번째 항까지만 정직하게 2배씩 증가하는 규칙을 보여주다가 이후로부터는 말도 안되는 규칙으로 식이 전개되는 경우도 있을 순 있습니다. 하지만 전체적으로 따졌을 때 이런 극단적일 경우는 상당히 낮다고 볼 수 있다는 말이죠.



 약간 스릴을 좋아하는 과감한 타입의 사람(?)이라면 한 8까지만 나왔을 때 바로 정답을 외칠 수도 있겠지만, 다소 신중하고 확신을 천천히 가지는 사람은 32 정도 까지는 나와야 정답을 외칠 수 있겠죠. 즉 공통적으로 속도와 정확성(확신)이 trade off 관계인 것은 동일합니다. 그 조합 중에서 어느 것에 배팅을 할 것이냐는 각자의 성향과 자라온 배경 환경에 따라서 달라지겠죠.




둘 다 얻고 싶지만, 하나를 얻으려면 다른 하나를 희생해야 하는 trade off 상황에서 우리는 자유롭게 선택을 합니다

https://blog.naver.com/holisticuniverse/222388633165




 이때 중요한 것은, 단서가 동일하게 딱 하나 주어질 때 그것에 소요되는 코스트(지금은 시간이죠)에 대비해서 정확성을 높여주는 그 정도가 다 다르다는 것입니다. 첫 항이 1에서 시작할 때, 추가적인 항에 대한 정보를 한개 말해줘서 2가 나왔을 때부터 우리는 이미 벌써부터 x2배 규칙이 아닐까 정답에 접근하고 있습니다. 반면 총 90만개의 항이 이미 주어진 상황에서 1개의 항을 더 본다고 해서 유의미하게 정확성을 대폭 올릴 것 같지는 않습니다. 90만 + 1 이나 90만이나 거기서 거기라는 것이죠.



 따라서 정리하자면, 아무리 단서와 근거가 많이 축적되어도 결국 정확히 다음 항에 올 숫자를 100%에 한없이 가깝게 예측할 수는 있지만 죽었다 깨어나도 100%에 도달할 수는 없다는 점(즉 점근선이 100%), 그리고 초반에는 항이 1개 추가로 단서가 주어질 때마다 정확히 이 수열의 규칙을 예측할 정확도가 급격히 올라가지만 후반으로 갈수록 점점 그 항 1개당 기여하는 효율이 낮아진다는 점을 보면 이런 식으로 그래프 꼴을 그릴 수 있을 듯 합니다.








 x축을 단서로 주어지는 항의 개수, y축을 정확도라고 한다면 이때 맨 위의 y=100%가 점근선일 것입니다. 단서로 주어지는 항의 개수가 많아질수록 당연하게도 정확도는 올라가지만 문제는 그 효율성입니다. 위 그래프를 미분했을 때, x가 작을 때는 급격히 크지만 x가 클 때는 상당히 완만하여 거의 평평한 모습을 그리고 있습니다. 그러니까 위 그래프에 의하면 x값이 90만일때 +1 하는 것과, 100만일때 +1 하는 것은 유의미한 차이가 없는 것이기도 하죠.



 그러니까 우리는 적절한 선에서 타협을 한다는 것입니다. 기울기 미분값이 지나치게 완만해지는 구간에 들어서면, "아 이 정도면 충분하다 지금 더 이상 시간을 투자(단서의 개수를 추가하는 것)한다고 해도 그렇게 효율적이고 유의미하게 정확도가 오를 것 같지는 않다" 라는 결론을 내리고 적당한 때에 단서를 추가하는 것을 멈춘다는 말입니다.



 1편에서 비유한 사람에 대한 관찰과 데이터가 바로 여기서도 통합니다. 우리는 결론적으로 어떤 사람을 그 속에 들어가보지 않는 이상 완벽하게 알 수 없습니다 즉 사람을 판단할 때 정확도가 100%는 될 수 없습니다. 그 사람에 대한 정보나 관찰한 내용, 주변의 평판 등 단서가 많아지면 많아질 수록 더더욱 정확하게 판단을 할 수 있겠지만, 점차 그 효율은 떨어질 것입니다. 그러니 우리는 주변 환경과 현실적 제약(시간이나 소득, 성격 등등)을 고려하여 적당한 선에서 타협을 할 것이고, 그 현실적인 제약이 만약 변한다면 우리가 저 그래프 위에서 점을 찍는 곳이 달라질 것입니다. 예컨데 우리가 개인적인 스케쥴이 여유로워져서 관찰에 투자할 수 있는 시간이 많아지면 정확성을 좀 더 높이는 방향으로 행동하겠죠.



 정리하면, 우리는 관찰을 통해 믿음을 업데이트(베이지안)하지만, 시간이 유한하기 때문에 ‘어느 시점에서 멈추고 결정할지’를 선택해야 합니다. 이때 ‘정확도 상승 vs 시간/비용’의 문제는 결국 다목적 최적화의 문제로 바뀝니다.







 이제 본격적으로 TEM 논문의 원문 내용, 그리고 그 원문 내용을 통해서 다시 한번 더 인간관계 추론을 하는 것에 대한 제 재해석과 확장, 마지막으로 파레토 효율에 대한 수학적 이야기까지 해보겠습니다.



 




 1편에서 미리 스포를 한 것처럼 TEM 논문의 핵심은, 해마는 단순히 공간 감각을 이해하고 처리하는 엔진이 아니라 복잡하고 고도로 추상적인 관계 기억까지도 관장하며 추론과 학습 등 대단히 고등한 능력을 발휘한다는 내용입니다. 1편에서는 주로 해마가 전통적으로 공간 기억에 관여한다는 기존에 잘 알려진 내용을 소개했는데요, 사실 해마는 이것 말고도 다양한 기능을 하는 것으로 알려져 있습니다. 예컨데 해마가 손상된 사람은 아이큐는 멀쩡하지만 미래 계획을 세우거나 시나리오를 상상하는 것, 그리고 상상한 시나리오 중에서 적절한 것을 골라서 장기적인 계획을 세우고 실행에 옮기는 상당히 고차원적인 능력 등이 심하게 훼손된다는 사실을 알아냈습니다.



 해마가 이런 다양한 일을 하는데, 이것이 과연 따로따로 분업을 하다보니 복합적으로 그냥 우연히 해마에 집중된 것일까, 아니면 사실 이런 기능들이 모두 하나의 관점에서, 하나의 이론으로 설명되며 사실은 동일한 것이었을까 상당히 많은 의문이 있었고 이들을 하나로 묶어서 설명하려는 프레임워크가 여태 실패해왔습니다. 그런데 TEM 논문에서는 놀랍게도, 해마가 공간을 처리하고 인식하는 능력과, 복잡한 사회적 관계 기억을 추론하는 능력이 서로 다르지 않고 동일한 매커니즘으로 작동함을 보여주었습니다.






 

 예컨데 해마는 위의 그림처럼 복잡한 관계를 지도를 그리듯이 이해를 하고 빈칸을 추론하는 능력이 있다는 것입니다. 이때 파란색 관계는 직접 관찰하고 경험한 것이고 초록색은 직접 보지 못한 내용인데, 파란색 관계들만 알고 있어도 해마는 초록색 관계를 추론하는 능력을 제공한다가 핵심입니다. 예컨데 B 그림에서 오토바이가 자전거보다 빠르고, 자전거가 킥보드보다 빨라서 a>b 이고 b>c일때, a>c라는 것을 어렵지 않게 추론해낸다는 말입니다. 상당히 놀라운 고차원적인 능력입니다.



 이때 C는 방향 감각이 필요한 과제인데, 마치 지도를 그리듯이 그려놨죠? 그리고 A와 B 그림도 보면, 관계도를 마치 지도처럼 그려놨고요. 해마는 이처럼 공간 뿐만 아니라 각 상태와 상태 사이의 관계를 마치 지도를 그리듯이 추상화하여, 서로간의 상호작용와 연결 관계를 잘 파악하는데 핵심적인 역할을 한다는 것입니다.



 이러한 능력의 비결이 뭐냐면 바로 해마의 적절한 분업 구조입니다. 해마는 새로운 것을 보았을 때 처음부터 끝까지 무식하게 학습을 하는 것이 아니라, 미리 머리에 저장해둔 구조를 불러옵니다. 그리고 이미 머리에 존재하는 구조에다가, 새롭게 받아들인 감각 정보를 서로 빠르게 결합하여 전체적인 지도를 효율적으로 파악합니다.




맨 위가 구조이고, 맨 아래가 새롭게 들어온 감각입니다. 해마는 이 둘을 결합하여 인간으로 하여금 빠른 추론이 가능하게끔 합니다. 구조는 계속 재사용되며, 감각은 새롭게 들어올 때마다 빠르게 기존에 존재하는 구조와 결합합니다.




 쉽게 말해서 얼음 틀을 생각하면 편할 것 같습니다. 얼음 틀(frame)은 이미 존재하고 고정되어 있습니다. 이때 여기에 다양한 변수들(혹은 감각)을 집어넣어서 얼음을 만들 수 있죠. 예컨데 물을 넣으면 투명한 얼음이 되고, 우유나 음료수를 넣으면 아이스크림이 되지만 틀은 지속적으로 유지되고 있습니다. 그리고 이 틀이 있는 덕분에 우리는 같은 모양의 얼음을 빠르고 일관되게 만들어서 먹을 수 있죠.



틀은 한번 만들면 재사용됩니다. 이미 모양 틀이 존재하기에, 우리는 다양한 변수(우유, 물, 음료수 등등)를 쉽게 틀과 결합시켜서 동일한 모양의 결과물을 낼 수 있는 것이죠. 틀을 하나 새로 만드는 것은 오래 걸리고 힘이 들지만, 일단 한번 만들기만 하면 계속 재사용하기에 빠르게 응용하고 결합할 수 있다!

https://kitchengu.com/product/%EC%8B%A4%EB%A6%AC%EC%BD%98-%EC%96%BC%EC%9D%8C%ED%8B%80-15%EA%B5%AC-%EB%B8%94%EB%A3%A8-%EC%82%AC%EA%B0%81%EC%96%BC%EC%9D%8C/113/




 이때 중요한 것은 인간에게는 이 세계에 대한 구조, 그러니까 머리 깊은 영역에서 대략 이 세상이 어떤 식으로 생겼다는 유형이 이미 자리잡고 있다는 말입니다. 그 구조 자체는 만드는 데에 시간이 오래 걸리며, 정교한 틀을 만들 때 손이 더 오래 가듯이 인간도 이 세상에 대한 모델, 이 세상에 대한 프레임, 틀을 만드는 데에는 시간이 오래 걸린다고 합니다.



 인공지능에게 종종 사진이나 이미지를 생성해달라고 하면, 팔이 머리에 붙어있다던지 등 전혀 말이 안되고 상식에 맞지 않는 그림을 그려주는 경우가 종종 있습니다. 이것은 인간과 달리 인공지능은 이 세계에 대한 내부 모델이 없고, 단지 확률적으로 무식하게 최대한 많은 양의 데이터를 관찰하고 공통점을 추출해서라는 설명이 있습니다. 우리에게 팔은 어깨에 붙어있는 것이 상식이고, 그것이 하나의 기준이며 당연한 사실이지만 인공지능은 이 세계에 대한 기준이나 틀이 없어서, 그냥 단순히 어깨에 팔이 붙은 사진을 많이 보다보니까 그게 그런 것 같다고 예상하는 것이라는 말입니다.






 한번 패턴이 형성되고 나면, 그것을 다른 감각에 결합하여 적용하는 것은 대단히 쉽고 빠르다고 설명합니다. 약간 난해해질 수도 있어서 논문에는 없는 내용을 좀 확장해서 또 다시 인간관계로 비유해보겠습니다.



 가끔 우리는 사람들을 보면 도사처럼, 얼굴 표정이나 걸음걸이, 목소리만 보고도 사람을 간파해내는 사람들을 종종 보곤 합니다. 저에게 수학을 가르치신 선생님도 약간 그런 스타일이셨는데, 그 사람들은 어떻게 사람을 보고 빠르고 정확하게 파악하는 안목을 가질 수 있었을까요? 단순히 경험이 많아서? 물론 도사님들이 하나같이 나이가 있으시고 경험이 많지만, 무조건 경험이 많다고 그런 안목이 생기는 것은 아닌 것 같습니다.



 TEM의 내용을 제 개인적인 경험과 함께 과감하게 확장하자면, 우리 도사님들은 이 세상에 존재하는 다양한 유형의 인간들에 대한 데이터베이스가 이미 존재하는 것입니다. 성격이 급한 사람, 느긋한 사람, 평온한 사람, 차분한 사람 등등 다양한 인간들을 만나보셨고, 여러 경험을 통해서 이 세상에는 대략 어떤 유형의 사람들이 주로 분포하는지를 알고 내부적으로 머리 깊숙히에 모델로 남겨놓은 것입니다.



 이미 인간의 여러 유형에 대한 기준들이 머리에 존재하기에, 새롭게 만난 사람을 보고 척 보고 어떤 유형의 사람인지 바로 대조하여 연결시키고, 따라서 그 사람은 미래에 어떤 행동을 할 것이라고 유추를 하는 것 같습니다. 상대적으로 어떤 특정 사람을 조금만 관찰하고서도 그 사람의 다양하고 내면적인 부분까지 간파하는 것은, 단순히 신이 신내림을 내려서가 아니라, 이미 비슷한 유형의 사람들을 많이 만나보았고 그런 사람들에 대한 기준과 프레임이 확립되어 있어서 가능한 것 같습니다.



 예컨데 한번 상상해봅시다. 성격이 급한 사람들은 다리를 떠는 습관을 많이 가졌다고 임의로 정해봅시다. 그리고 성격이 급한 사람들은 성격이 급해서 실수를 자주 한다고 상식적으로 생각하면, 곧 다리를 떠는 사람은 실수를 자주 한다로 연결할 수 있을 것입니다. 우리가 보기에 사람들을 많이 만나보고, 조그마한 사소한 행동과 동작 만으로도 그 사람의 깊숙한 내면이나 잘 보이지 않는 부분까지 간파해내는 사람들은 이런 유형이 머리에 풍부하게 담겨 있어서, 새로운 사람을 만났을 때 다리를 떠는 것을 보고 곧장 저 사람은 실수를 많이 할 것이라고 빠르게 추론한다는 것이죠.



 저는 개인적으로 사주를 보는 것을 재미있어합니다. 앞서 말한 도사님들처럼, 사주를 보러 가면 제가 태어난 년월일시만 불러주면 한자가 빼곡히 적힌 용지를 프린트하더니 세세하게 분석하고 제 성격과 성향, 트라우마, 약점 등 마치 저를 오랫동안 관찰한 것처럼 신기하게 말해줍니다. 어떻게 그게 가능한걸까? 생각해보면 사주도 사실 동양의 오랜 빅데이터라는 말이 있지 않습니까. 역사적으로 오랫동안 축적되어, 특정 년월일시에 태어난 사람들은 주로 유형이 이렇다~ 가 정립이 되어 있으니 저에 대한 빠르고 정확한 진단이 가능한 것입니다. 즉 사주를 봐주시는 분들 입장에서는 이 세상에 존재하는 다양한 유형의 사람에 대한 기준과 프레임, 틀이 잘 갖춰진 것이고 제 년월일시만 알아내면 빠르게 해당 유형을 불러와서 해석을 해주시는 것입니다.



 물론 사주가 과학적이라는 뜻이 아니라, ‘유형 기반 예측’이 어떻게 작동하는지에 대한 비유로만 사용하겠습니다.






 이러한 일은 사실 여러분도 계속해서 매일 하고 있습니다. 이른바 유형별 학습이죠. 수학 문제에서 이러이러한 단서가 주어졌다! 이럴 땐 이렇게 풀어야 빠르게 풀 수 있더라!를 여러 번의 경험과 시행 착오를 통해 터득하고 내공을 여러분 스스로가 쌓아놓았습니다. 여러분이 빠르게 새롭게 보이는 문제를 풀어낼 수 있는 것은, 이미 해당 유형의 문제에 대해서 어떻게 대처할 지가 학습이 되어 있고 모델로서 존재하기에 빠르게 적용할 수 있는 것이죠.



 잠깐 광고를 하자면 제가 쓴 <수능 국어 비문학의 과학적 학습법>에서도, 비문학의 세세한 종류에 대해서 전부 다 유형을 나누고 각 유형에서 어떤 것을 보아야 하는지, 어떤 생각을 해야 하는지를 메뉴얼처럼 기준을 제시해두었습니다. 전 읽기 훈련이 오랫동안 되어있어서, 어떤 글을 보았는데 서두에 무슨 내용이 나오는 순간 딱 그 내용에 해당하는 유형이 머리에 떠오르고, 따라서 그 유형의 글을 볼 때 어디에 중점을 두고 주의를 기울여야 하는지 체득이 되어 있습니다. 때문에 새롭게 보이는 지문을 보더라도 남들보다 빠르게 이해하고 문제 풀이법을 적용할 수 있는 것이죠.




https://atom.ac/docs/7326/?conversation_mode=1




 머리에 한번 구조가 잘 형성되면, 이후로 등장하는 비슷한 유형의 문제들은 아무리 구체적인 수치가 다르거나 배치가 달라서 새롭게 보일지라도 매우 효과적이고 빠르게 풀어낼 수 있습니다. 우리가 평소 하는 일은 이러한 구조와 패턴을 다양한 경험(문제집을 죽도록 많이 풀어서)을 통해 형성하고, 또 구조를 강화하고 더욱 견고하고 튼튼하게 다듬고 효율적으로 개선하면서 머리에 깊숙히 체화시켜서 숙련되게끔 노력하는 것이죠.



 특히 TEM 논문에서는 단순히 이런 구조, 이 세계에 대한 모델, 틀, 유형을 학습하는 것이 어렵고 오래 걸린다고 나와있던데 전 구체적으로 사람마다 이런 유형을 잘 학습하는데 걸리는 시간이 왜 차이가 나는지, 어떻게하면 효과적으로 빠르게 구조를 학습시킬 수 있는지가 많이 궁금하더군요. 예컨데 사람을 많이 만나보셨고 다양한 유형의 사람들을 잘 분류해서 구조를 매우 정교하게 만들어놓은 제 수학 선생님은 어느 사람을 첫 인상에서 보았을 때 그 사람을 정확히 판단하는 정확도가 80%쯤 될 것입니다. 그러나 저는 수학 선생님만큼 오래 살아온 것도 아니고, 다양한 유형의 사람들을 체계적으로 잘 분류한 것이 아니라서 첫 인상만으로는 60% 정도의 정확성 밖에 못 찍을 것입니다.



 제 머리에 있는 구조를 더 뚜렷하고 효과적으로, 정교하게 다듬기 위해서는 더욱 많은 유형의 사람들을 다양하게 만나보면서 관찰을 잘 해야겠죠. 마찬가지로 여러분도, 새로운 신유형의 문제가 나왔을 때 막힘없이 푸는 여러분의 선생님들에 비해서 여러분은 아직 문제를 많이 못 풀어보았고, 또 많이 풀어보았어도 체계적이고 잘 분류를 하는 작업을 못했기에 상대적으로 정확도와 속도에서 밀릴 것입니다. 아까 위에서는 정확도를 얻으면 속도를 포기해야하고, 속도를 얻으려면 정확도를 포기해야 한다고 말했지만 그 맥락과는 다릅니다. 여러분은 그냥 잘 푸는 선생님들에 비해서 모든 면에서 뒤지는 것입니다.


 




 혹시 경제학을 공부한 학생이라면 '파레토 효율'이라는 말을 들어보셨을 것입니다. 사전적 정의는 다음과 같은데, 약간 알쏭달쏭해보이지만 조금만 생각하면 이해가 충분히 갑니다. 파레토 전선이란, 어떤 점도 ‘속도와 정확도를 동시에 더 좋게’ 만들 수 없는 경계(=더 이상 동시에 개선 불가능한 집합)입니다. 






https://youthpress.net/xe/index.php?mid=kypnews_article_culture&document_srl=414383&listStyle=viewer




 예컨데 x축을 문제를 푸는 속도, y축을 문제를 풀었을 때 맞추는 정확도라고 가정해봅시다. 편의를 위해 단순하게 숫자가 높을 수록 좋은 것이라고 가정하고, maximum을 D(속도 100, 정확도 100)이라고 해봅시다. D에 도달한 사람은 이 세상에 없습니다(말이 안되거든요 물리적으로도 불가능하고). 그리고 B를 (속도 60, 정확도 80) 이라고 하고 C를 (속도 80, 정확도 60), 그리고 불쌍한 여러분과 저를 A (속도 60, 정확도 60)이라고 두겠습니다. (제가 그린 그림이 아니라서 A가 B,C와 평행이동 관계가 아닌 것은 너그럽게 무시해줍시다)



 저 빨간 선 위는 그야말로 신의 영역입니다. 저기는 한국에서 최고의 경지에 이른 선생님들이 분포한 선인데, 이때 서로 위치가 다른 것은 맨 위에서 말한 trade off의 영향 때문입니다. B 선생님이나 C 선생님이나 모두 인간의 극한을 쥐어 짜내는 한계를 보여주는데, 단지 B 선생님은 속도를 약간 희생해서 정확성을 선호하는 사람이고 C 선생님은 거꾸로 정확성을 약간 희생해서 속도를 얻는 타입일 뿐입니다. 



 빨간 선 위에 있는 사람들은 비록 개인적인 능력의 편차가 존재하지만, 둘 다 수학을 제한된 시간 안에 충분히 만점을 받을 정도로 잘 푼다고 볼 수 있습니다. 저 경지에 이르러서는 더 이상 개선이라는 것이 존재할 수 없습니다. 저 붉은 곡선 내부 면적 안에 모든 사람들의 실력과 스타일이 격자로 분포해있는데, 불쌍한 우리는 A 점에 존재해서 (속도 60, 정확성 60)을 찍고 있습니다. 편의상 한 80점을 맞는 학생이라고 생각해봅시다.



 이때 A는 파레토 효율적이지 않습니다. 왜냐하면 아직 발전할 여지가 있기 때문입니다. 정확도를 60에서 80으로 실력을 올려서 B 선생님처럼 될 수도 있고, 아니면 속도를 60에서 80으로 올려서 C 선생님 스타일로 풀 수 있습니다. 즉 80점을 맞다가 100점이 되는 것이죠. 



 우리가 (속도 60, 정확도 60)이라는 좌표에 머무르는 것은 trade off의 원리 때문이 아닙니다. 우리가 열심히 공부하고 노력을 잘 한다면, 정확도를 60에 유지시키면서 C 선생님처럼 속도만 80까지 키울 수도 있고, 거꾸로 B 선생님처럼 속도를 60으로 유지하면서 정확도를 60에서 80까지 올릴 수도 있습니다. 우리가 위치한 A 지점은 아직 파레토 효율적이지 않기에, 파레토 효율적인 붉은 선 위로 발전할 수 있는 여지가 존재합니다.



 선생님 B와 선생님 C의 관계처럼, 어느 하나를 고정시키면서 다른 하나만 더욱 증가시킬 수 없기에 우리는 저 지점 붉은 선 부분을 파레토 효율적이다, 영어로 파레토 전선 pareto frontline이라고 합니다. 하지만 학생 A인 우리는 다르죠. 열심히 공부해서 실력을 더 쌓고, 해마를 훈련시키고 다양한 문제를 풀면서 수능에 대한 내부 모델, 프레임을 잘 정립하면 속도 혹은 정확성 중 하나를 보존시키면서 붉은색 선 쪽으로 이동할 수 있을 것입니다. 혹은 둘 다 개선할 수도 있겠죠.






 마지막으로 실제 논문을 하나 추가로 더 가져와서, 파레토 효율에 대한 보충 설명을 해보겠습니다. 이 부분은 제가 독일에서 프랙탈과 생체 모사에 대한 연구를 하면서 영국 교수님이 알려주신 중요한 정보입니다.







 식물 가지의 구조도 프랙탈이잖아요? 마침 제가 프랙탈을 연구하다보니까 자연스럽게 알게 되었거든요. 식물의 가지 구조가 무작위인가, 아니면 뭔가 다변수를 최적화한 결과냐에 대해서 후자라고 논문에서 말하고 있습니다. 식물의 가지 구조는 '건설 비용(총 길이)'와 '수송 성능(뿌리-잎 이동 거리)' 사이의 trade off가 일어나는데, 이때 식물의 구조는 단순히 두 요소의 trade off 속에서 벌어지는 것이 아니라, 이 trade off를 극한까지 효율적으로 최대한 활용한, 그러니까 위에서 100점을 맞는 선생님 B와 C를 말한 것과 비슷하게 더 이상 개선할 수 없는 파레토 전선 위에 분포한다는 내용입니다.



 식물의 가지 구조랑 비슷하게 혈관도 2가지 요소 사이에서 치열한 trade off가 발생합니다. 넓은 면적으로 피를 보내서 영양분을 공급하려는, 즉 확산을 우선시하려는 방향이 있습니다. 동시에 최대한 수송 면적과 길이를 최적화해서, 혈류 속도를 빠르게 하려는 방향이 있습니다. 확산에 지나치게 투자해서 혈관 길이가 너무 늘어나고 면적이 커진다면 전체적인 혈류 속도를 늦춰서 결과적인 영양분 공급이 약해질 수도 있습니다. 반대로 확산을 줄이고 혈관 길이를 아끼는 경우, 필요한 세포의 위치까지 혈류가 닿지 않아서 마찬가지로 결과적인 영양분 공급이 약해질 수도 있죠. 



 마치 선생님 B와 C가 서로 간의 성향 차이나 성격 차이로 인해서 똑같이 100점을 맞지만 그 100점을 맞는 데에 발휘되는 역량을 서로 다른 종류로 표현한 것처럼(누구는 정확도 중시, 누구는 속도 중시), 식물 또한 서로 다른 다양한 전략을 구사하는 것으로 보이지만 사실은 공통적으로 파레토 전선 위에 분포하여, 자신이 처한 상황 속에서 최대한 가장 효율적인 퍼포먼스를 보이고 있었다는 것입니다. 단 이때 같은 파레토 전선 위에 분포하지만, 서로 질적으로 다른 것(누구는 수송 효율을 중시하고, 누구는 건설 비용을 줄이는 것을 중시하는 것)은 식물들이 각각 처한 상황과 맥락, 즉 고온이나 저온이냐 햇빛이 강한가 약한가에 따른 선택의 결과라는 것입니다.



 그래서 위의 논문은 비록 혈관 이야기까지 직접적으로 하지 않지만, 식물 가지 구조와 비슷한 인체의 혈관 프랙탈 구조도 파레토 전선 위에서 최적화되어 극한의 효율을 뽑고 있을 것이라고 암시를 하고 있다는 것입니다. 그 결과가 아래처럼 생긴 우리의 혈관 시스템 모양(프랙탈)이고요.



주어진 환경, 36.5도의 체온과 현재 대기질의 산소 농도 등에 따라서 달라지겠지만 우리의 혈관 프랙탈 구조도 파레토 전선 위에 위치했을 것이라는 강한 암시합니다. 체온과 신진대사가 다른 기타 동물들은 인간의 혈관 구조와 다르긴 하겠지만, 최대한 자신이 처한 상황 속에서 가장 효율적일 수 있는 파레토 전선 위에 존재하지 않을까 상상합니다

https://kr.123rf.com/photo_201236196_%EC%9D%B8%EA%B0%84-%ED%98%88%EA%B4%80-%EC%A0%95%EB%A7%A5-%EB%82%B4-%EC%9D%B8%EA%B0%84-%ED%98%88%EA%B4%80%EC%9D%98-3d-%EB%A0%8C%EB%8D%94%EB%A7%81.html





 자 이제 결론을 내리겠습니다. 왜 초반에는 trade off이야기를 하고, 중반에는 TEM에서 인간이 이 세상에 대한 모델, 구조를 형성하여 빠르게 추론하고, 맨 마지막에는 파레토 전선과 파레토 효율을 이야기를 했느냐? 면 제가 생각하기에 TEM에서 아직 안 밝혀진 것이 바로 이런 모델을 정교화하는 작업에 대한 내용이기 때문입니다. 즉, ‘속도-정확도 trade-off’는 최적 전선 위에서의 취향/전략 차이고, ‘실력 향상’은 전선 내부에서 전선으로 이동하는 과정입니다. TEM이 말하는 구조 학습과 재사용은 이 이동을 가능하게 만드는 핵심 메커니즘일 수 있습니다. 



 누차 비유를 들었듯이, 80점을 맞는 우리는 해마를 잘 훈련시키고 더욱 다양한 유형의 문제를 풀고, 수능에 대한 틀과 모델을 정교화하면서 점점 100점에 가까워질 수 있을 것입니다. 그런데 이때 우리가 단순하게 무조건 정확성만 혹은 무조건 속도만 올리는 쪽으로 100점에 가까워진다는 말이 아니라는 것이죠. 같은 100점짜리라도 누구는 속도를 중시하고, 누구는 정확도를 중시할 수 있는데 동일한 100점짜리 선생님들 사이에 질적인 차이가 존재하는 것은 trade off의 원리 때문이고, 우리가 80점에서 100점으로 올라가는 것은 trade off의 원리가 아니라 그냥 우리가 가진 구조 자체가 더욱 정교화되는 결과라고 구분하고 싶어서 이렇게 오랫동안 이야기를 한 것입니다.



 마찬가지로 사람을 보는 안목에서도 이렇게 정리할 수 있을 것입니다. 제 수학 선생님은 사람에 대한 유형별 학습, 다양한 종류의 사람에 대한 학습이 잘 되어 있으셔서 짧은 시간 안에 정확하게 사람을 판단할 수 있을 것입니다. 반면 저는 사람에 대한 내부 기준과 모델이 약간 미비해서, 선생님보다 더 많은 시간이 걸리고 정확성도 동시에 떨어질 것입니다. 제가 선생님처럼 더욱 많은 사람들을 경험하고 만나면서 다양한 유형에 대한 학습을 하고 내부 구조를 잘 다듬고 발전시킨다면, 선생님과 비슷한 성능을 내는 안목을 가질 수 있겠죠.



 하지만 이것은 속도와 정확성 사이의 trade off 관계가 아닙니다. 전 속도도 정확성도 둘 다 선생님에 비해서 떨어졌기 때문이죠. 하지만 이제 선생님의 경지에 다다르어서, 같은 파레토 전선 위에서 논다면 이때 저와 선생님의 관계는 trade off입니다. 둘 다 똑같이 사람을 잘 보는 안목을 가졌지만, 누구는 속도를 살짝 더 중시하고 누구는 정확성을 살짝 더 중시하는 개인적인 스타일  차이가 날 수도 있겠죠. 더 이상 어느 하나의 요소를 그대로 보전하면서 다른 요소를 발전시키는 것은 불가능합니다 반드시 어느 하나를 희생하고 양보하고 타협해야하죠.



 때문에 기본적으로 보통 대부분의 사람들은 사람을 보는 안목에 대해서, 속도와 정확성을 좌표로 나타낸 평면 위에서 파레토 전선 위에 분포하지 못하고 있습니다. 파레토 전선 위에 있는 사람들은 선생님 B, C와 마찬가지로 그야말로 신의 영역, 사람이 발휘할 수 있는 최대의 능력을 발휘하는 도사들이죠. 그 도사들에 비하면 우리의 안목은 정확성도 떨어지고 사람을 판단하는 속도도 떨어집니다. 우리는 파레토 전선 안쪽에 위치하고 있는 것이죠.



 






 제가 이번에 읽은 TEM에 대한 논문은 기본적으로 사람의 고차원적인 의사 결정 능력에 대한 논문이었습니다. 어떻게 인간이 인공지능에 비해서 훨씬 빠르고 정확한 추론이 가능한지에 대해서, 해마의 정교한 분업 구조 덕분이라고 소개하고 있습니다. 이러한 생물학적 원리에 영감을 받아서, 해마와 비슷하게 분업 구조를 가지는 인공 해마를 인공지능에 구현하려는 최신 연구들도 있다고 들었습니다.



 이건 좀 다른 이야기인데 그럼 인간에게 지혜란 무엇일까요. TEM에서는 이런 거시적이고 철학적인 내용까지 들어가진 않았습니다만, 전 그나마 인간의 지혜 중에서 신기하다고 누구나 느끼고 존재하긴 한다고 어렴풋이 다들 공감하는 '사람을 보는 안목'을 예시로 들며, 바로 인간 세상에 대한 다양한 유형과 구조를 미리 준비하고 정리를 해두는 것이 아닐까 하는 결론에 도달했습니다.



 보통 지혜가 많은 사람은 경험이 많은 사람들, 노인들인 경우가 많죠. 물론 노인이 되고 경험이 많다고 해서 무조건 지혜로운 것은 아닙니다. 그 차이가 뭘까 생각하면, TEM으로 힌트를 얻은 바 같은 경험을 했어도 이 세상에 대한 구조적이고 근본적인 틀, 프레임을 잘 살리고 유형을 나눈 것이 아닐까 합니다. 공부를 잘 하는 학생들은 이미 많은 문제를 풀어본 것도 있지만, 새로운 문제를 접했을 때 기존의 지식을 잘 활용해서 어떻게 풀어나가야 할지 잘 추론하는 것처럼 말이죠.



 평소 학습에 대해서 많은 고민을 하고, 어떻게하면 나도 천재들처럼 머리를 잘 쓰고 공부를 잘 할까 항상 고민하는 입장에서 TEM 논문은 강력한 힌트를 제공해주었다고 생각합니다. 단순히 경험이 많고 지식이 많은 것이 천재이고 지혜롭고 지능이 높은 것이 아니다, 이 세계에 대한 정교하고 견고한 모델, 기준, 내부 틀이 잘 확립된 것이 곧 지혜일 수도 있겠다는 생각이 많이 듭니다.



 


0 XDK (+0)

  1. 유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.