국어) 수특 독서 지문 정정 재신청
게시글 주소: https://orbi.kr/00073468774
처음에 너무 두서없이 썼는지 반려되어서, 다시 쓴 김에 오르비에도 올립니다.
==========
사진은 순서대로 MRP, MDP, 그리고 수능특강의 <그림>입니다.
<그림>이 MRP와 MDP 중 무엇과 더 유사한지 살펴봐 주시기 바랍니다.
MRP와 MDP 사진 출처는 구글 딥마인드 유튜브 채널의 RL Course 강의자료입니다:
https://m.youtube.com/watch?v=lfHX2hHRMVQ&pp=0gcJCf0Ao7VqN5tD
수능특강 지문에서는 <그림>을 MDP로 설명하고 있습니다.
MDP에서는 에이전트가 '상태 → 행동 → 상태'로 전이되고,
MRP에서는 에이전트가 '상태 → 상태'로 전이됩니다. MRP에는 행동이 없습니다.
그리고 <그림>을 보면 행동이 없습니다.
위 MDP에서 원은 상태를 뜻하고, 점은 행동을 뜻합니다.
가장 오른쪽 원(상태)에서, 왼쪽의 원(상태)들로 넘어가려면 행동을 거쳐야 합니다.
맨 아래 점이 하나 있죠? 'Pub'이라는 행동을 나타낸 것입니다.
그 행동의 결과로, 3개의 원(상태)로 전이될 확률이 각각 0.2, 0.4, 0.4로 주어져 있습니다.
지문의 서술을 보겠습니다.
'영어 공부' 상태에서는 2가지 행동 중 하나를 취할 수 있는데, 선택한 행동에 따라 다음 상태인 '카페', '운동'으로 이동할 확률, 즉 상태 변이 확률은 각각 0.4와 0.6으로 주어져 있다. 그리고 이때의 보상(R)은 각각 +1, +10이다.
아마 '카페 가기' 행동을 취해 '카페' 상태로 전이될 확률이 0.4이고,
'운동 가기' 행동을 취해 '운동' 상태로 전이될 확률이 0.6인 것으로 읽어야 할 듯합니다.
하지만, 행동은 상태 전이 확률에 따라 정해지는 것이 아닙니다. 지문에도 나와 있습니다.
정책은 각 상태에서 취할 행동의 묶음이다.
어떤 행동을 선택할 지는 에이전트가 정책으로 정합니다.
만약 '영어 공부' 상태에서 할 2가지 행동, 즉 행동1과 행동2가 있다면,
에이전트는 정책에 따라 행동1과 행동2 중 하나를 선택할 것이고,
그 결과 '카페'와 '운동' 상태로 전이될 '상태 전이 확률'이 행동1과 행동2 각각 따로 정해져 있어야 합니다.
예를 들어, 만약 두 행동이 '카페 가기'와 '운동 가기'일 때 에이전트가 '카페 가기' 행동을 선택했다면,
'카페' 상태로 전이될 확률과 '운동'으로 전이될 확률이 각각 주어져야 하는 것입니다.
그리고 만약 이 확률이 각각 0.4와 0.6이라면,
'카페 가기' 행동을 선택했을 때 '운동' 상태로 전이될 확률이 0.6이라는 의미가 됩니다.
만일 그렇지 않고 '카페' 행동을 선택했을 때 '카페' 상태로만 전이된다면,
상태 전이 확률은 0.4나 0.6이 아닌 1이어야 합니다.
또, MDP에서 보상은 행동에 주어지는 것이지, 상태에 주어지는 것이 아닙니다.
MDP를 보면, 'Pub'이라는 행동에 대해 보상 '+1'이 주어집니다.
그런데 지문의 <그림>을 보면, '카페'와 '운동' 상태에 각각 보상 '+1, +10'이 주어지는 것처럼 보입니다.
'카페 가기' 행동을 했는데 '운동' 상태로 전이되었을 경우를 생각해 보면,
<그림>과 지문 서술로 비추어서는 보상이 +1인지 +10인지 알 수가 없습니다.
보상은 '카페 가기' 행동에 주어져야 합니다.
==========
(이전 신청 건 EBS 답변)
안녕하세요. 회원님의 의견에 대한 답변을 드립니다.
제시문에서 행동과 그에 따른 보상을 설명하고 있으므로, <그림>에서의 상태 간 전이는 에이전트의 행동 선택에 따른 결과로 해석해야 합니다. 즉, 제시문의 설명에 따라 <그림>을 MDP로 이해하는 데 문제가 없다고 판단됩니다.
감사합니다.
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
-
BOJ 26220 -->...
-
13 15 20 28 30틀.. 난 바보야아 그래도 실력 좀 늘은듯!?
-
자작문제는 아니고, 기말고사때 공부하던 문제였습니다. 풀이는 고등학교 과정을...
-
폴더폰으로 바꿉니다 재수시작했을 때 수학, 국어 기출 문제 올릴때마다 댓글...
-
설마 한국만 탈원전하지는 않겠지?
-
부모님 한 쪽이 지금은 휴직중이지만 치한약수 중에 하나이고 곧 환갑을 바라보는...
-
과학관 수업 갈 때 언덕 안올라가도 돼서 편하다 이쁘다 기분 좋다 -------...
-
ㅈㄱㄴ
-
통사적/비통사적 합성법이 한국에서만 쓰이는 개념이구나 0
국외에서는 이런 식의 구별법을 잘 쓰지 않고 주요하게 여겨지지도 않음...
-
사문 질문 8
질적 연구 전 과정에서 주관적 판단이 들어가잖아요 근데 자료 수집과정에서는 왜...
-
수학 노벤데용 수1수2 파데 원래 새로 안찍으시는거죠?? 그냥 들어도 문제 없나요?
-
연구 윤리와 마인드셋 - 한국인들은 간과하는 소프트 스킬 1
여러분만큼이나 저도 한국이라는 교육 체계에서 치여본 사람이라서, 소프트 스킬보다는...
-
곧 고등학교 들어가는 동생이 있는데 형이란 새1기가 고1 1학기부터 수시를 던져서...
-
경기 안봤는데 대충 1셋 요약 해주실분
-
4 5 16틀은 개념이 어떻게 되어먹은건지... 기출 공부 시작하면서...
-
???: 내신 5등급까지밖에 없는 거 아님? 구라도 적당히 쳐야지 지금 이미 이런...
-
옛기출 보는게 정배인가요? 아니면 사설하는게 나을라나요?
-
궁금해서 누를뻔함
-
고2따리가 무슨 강체평형에 유체역학;; 1단원부터 특상 일상 나오는 것도 짜침
-
처밪ㅇ전 넣으면 알아서 만들어주는 기계 도입하자
-
신세계 정용진 회장 아버지도 상당히 독특한 분이었네요. 1
https://shindonga.donga.com/people/article/all/...
-
내가 내년에 사관학교 지원하면 최고령 지원자가 되지 않을까 6
원래는 한국나이 기준 21살까지만 되는 걸로 아는데 본인은 내년도 지원할 수 있음
-
혹시 육사도..
-
1. 5등급 이하라면 듣기부터 확실히 잡아라 듣기는 상대적으로 쉬운 파트이지만,...
-
진짜 게처웃기네 ㅋㅋㅋㅋㅋㅋㅋㅋ
-
6평때도 이렇게 생명 3점 날렸는데 정신을 못 차리네 ㅠㅠ
-
그래야 LPL팀 개패고올라가서...
-
등급컷 좀 중요함..
-
킅진짜뭐냐 6
물론 아직 티원 개빡이긴한데... 이시점에 뽑아찢기라...
-
밴픽부터 쳐발리노
-
요즘 패턴 망해서 밥을 잘 못먹네 새벽에 여는건 버거킹뿐야
-
뒷방 늙은이의 풀이로는 그냥 체육 느낌인데 고능고능열매 능력자들은 어케 풀었을까
-
공통이 많이 쉽고 나머진 언매에서 대부분을 틀린건가요???
-
평가원 공간도형은 13
이유식 순한맛이라 재밌는데 이제 역사속으로 사라진다니 평가원 N제 내주면 좋겠다…
-
요즘 드는 생각인데 24 이후엔 국어 수학 특히 국어에서 n제보단 그냥 ebs...
-
쌍둥이였누 ㄷㄷ
-
1,2,3 중에서 중복가능 6개 택해서, 임의의 이웃한 두 수의 곱은 짝수가 되도록...
-
기상 2
오하요
-
차단한 사람들 프로필 들어가면 옛날프사 뜨는데 뭐임? 7
들어갈 때마다 이럼뇨
-
틀딱이 돼버리다니
-
오토바이를 어떻게든 막겠다는 그의 의지…
-
수학이 너무 딸리는 듯
-
세차운동이랑 결합하니까 맛도리네 그냥
-
N제 난이도 6
N티켓 빅포텐 이해원시즌1 커넥션 순서 정해주시면 감사하겠습니더 (6모 미적...
-
반데옾 0
ㅈㅈ 못하겟다
-
기말ㅅㅅ 0
-
제발
-
이해원 시즌1 2
4규 시즌1 밖에 안풀었는데 바로 풀어도 되겠지 ㅋㅋ
-
미적 듣는데 괜찮아서 공통도 듣고 싶은데 다들으려면 너무 볼륨이 큰거 같애서요.....
-
어라라
첫번째 댓글의 주인공이 되어보세요.