국어) 수특 독서 지문 정정 재신청
게시글 주소: https://orbi.kr/00073468774
처음에 너무 두서없이 썼는지 반려되어서, 다시 쓴 김에 오르비에도 올립니다.
==========
사진은 순서대로 MRP, MDP, 그리고 수능특강의 <그림>입니다.
<그림>이 MRP와 MDP 중 무엇과 더 유사한지 살펴봐 주시기 바랍니다.
MRP와 MDP 사진 출처는 구글 딥마인드 유튜브 채널의 RL Course 강의자료입니다:
https://m.youtube.com/watch?v=lfHX2hHRMVQ&pp=0gcJCf0Ao7VqN5tD
수능특강 지문에서는 <그림>을 MDP로 설명하고 있습니다.
MDP에서는 에이전트가 '상태 → 행동 → 상태'로 전이되고,
MRP에서는 에이전트가 '상태 → 상태'로 전이됩니다. MRP에는 행동이 없습니다.
그리고 <그림>을 보면 행동이 없습니다.
위 MDP에서 원은 상태를 뜻하고, 점은 행동을 뜻합니다.
가장 오른쪽 원(상태)에서, 왼쪽의 원(상태)들로 넘어가려면 행동을 거쳐야 합니다.
맨 아래 점이 하나 있죠? 'Pub'이라는 행동을 나타낸 것입니다.
그 행동의 결과로, 3개의 원(상태)로 전이될 확률이 각각 0.2, 0.4, 0.4로 주어져 있습니다.
지문의 서술을 보겠습니다.
'영어 공부' 상태에서는 2가지 행동 중 하나를 취할 수 있는데, 선택한 행동에 따라 다음 상태인 '카페', '운동'으로 이동할 확률, 즉 상태 변이 확률은 각각 0.4와 0.6으로 주어져 있다. 그리고 이때의 보상(R)은 각각 +1, +10이다.
아마 '카페 가기' 행동을 취해 '카페' 상태로 전이될 확률이 0.4이고,
'운동 가기' 행동을 취해 '운동' 상태로 전이될 확률이 0.6인 것으로 읽어야 할 듯합니다.
하지만, 행동은 상태 전이 확률에 따라 정해지는 것이 아닙니다. 지문에도 나와 있습니다.
정책은 각 상태에서 취할 행동의 묶음이다.
어떤 행동을 선택할 지는 에이전트가 정책으로 정합니다.
만약 '영어 공부' 상태에서 할 2가지 행동, 즉 행동1과 행동2가 있다면,
에이전트는 정책에 따라 행동1과 행동2 중 하나를 선택할 것이고,
그 결과 '카페'와 '운동' 상태로 전이될 '상태 전이 확률'이 행동1과 행동2 각각 따로 정해져 있어야 합니다.
예를 들어, 만약 두 행동이 '카페 가기'와 '운동 가기'일 때 에이전트가 '카페 가기' 행동을 선택했다면,
'카페' 상태로 전이될 확률과 '운동'으로 전이될 확률이 각각 주어져야 하는 것입니다.
그리고 만약 이 확률이 각각 0.4와 0.6이라면,
'카페 가기' 행동을 선택했을 때 '운동' 상태로 전이될 확률이 0.6이라는 의미가 됩니다.
만일 그렇지 않고 '카페' 행동을 선택했을 때 '카페' 상태로만 전이된다면,
상태 전이 확률은 0.4나 0.6이 아닌 1이어야 합니다.
또, MDP에서 보상은 행동에 주어지는 것이지, 상태에 주어지는 것이 아닙니다.
MDP를 보면, 'Pub'이라는 행동에 대해 보상 '+1'이 주어집니다.
그런데 지문의 <그림>을 보면, '카페'와 '운동' 상태에 각각 보상 '+1, +10'이 주어지는 것처럼 보입니다.
'카페 가기' 행동을 했는데 '운동' 상태로 전이되었을 경우를 생각해 보면,
<그림>과 지문 서술로 비추어서는 보상이 +1인지 +10인지 알 수가 없습니다.
보상은 '카페 가기' 행동에 주어져야 합니다.
==========
(이전 신청 건 EBS 답변)
안녕하세요. 회원님의 의견에 대한 답변을 드립니다.
제시문에서 행동과 그에 따른 보상을 설명하고 있으므로, <그림>에서의 상태 간 전이는 에이전트의 행동 선택에 따른 결과로 해석해야 합니다. 즉, 제시문의 설명에 따라 <그림>을 MDP로 이해하는 데 문제가 없다고 판단됩니다.
감사합니다.
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
-
최대 320인가를 찍고 꾸준히 우하향중 요즘 비호감이긴 했어
-
계산이 ㅈㄴ많음 심지어 그게 자연수 계산도 아님 내가 확통런한 이유
-
그냥 이대로 끝? 수능끝나고 콘서트가고싶었는데
-
시전하면 어캄? 20249평22번때 ㅈ밥 내놓고 24수능 22번에 저걸로 ‘어...
-
올해 강모 현강 수익은 세이브더칠드런에 기부하신다고 해요 기원T 수업 많이 와주시길
-
새르비언들 4
스트레스받지말고 행복만해 사랑해 내 유일한 칭긔들
-
3일 밀린 과제를 오늘 밤새워서 끝나야함....
-
먹고 바로 계속 물똥쌈 진짜 이딴거 철회안한 내가 뇌갈통 빈 듯
-
롤 인기 우리나라나 중국에서도 떨어지는데 근데 유빈아카이브 어디감?
-
강기원 예습문제 0
제발 이러지 말아줘...
-
문만 독학 2개월차에 이정도면 대단한게 맞는거 같음 저능부엉인데 이건 유일하게 저능하지가 않은건가
-
수학 3등급 1
공통 7월끝까지 기출만 해도 괜찮을까요? 기출은 수분감으로 하구있어요 3모부터...
-
내일 화작 기출분석 칼럼 올리려고 하는데 화작 기출중에서 정답률 낮았다거나 어렵다고...
-
누가 대학 잘갈까요? 정시준비생이라고 칠때 18시간공부는 중간 40분씩...
-
수학의 정석 개념 수학의 정석 실력 repeat
-
현역 정시러입니다 평일은 학교에서 10시까지 야자하고 주말은 아침 9~10시쯤...
-
일단 생각중인건 리트300제 그릿 피드백 중복되는 지문이 몇개씩 있을거 같아서 다...
-
호루스코드 다시 읽어보기....
-
어떤분은 파장변화량이 적색편이량 이라는데 또 어떤분은 z자체가 적색편이량이라고히는데...
-
오늘은 여기까지 ㅎㅎ
-
코사인법칙은신이다
-
졸려 6
자기싫어
-
닥후인 것 같습니다. 제가 고딩일 때는 눈알 빨리 굴리기 시험 같았거든요. 선생들...
-
오르비 국어) "1등급의 시선" 2025 6월 고2 학평 10
일단 글쓰기에 앞서 소신 발언 하겠습니다!! 이번 고2 국어 비문학이 고3...
-
논술따위 쓰지않는다
-
도지사 한 것도 그렇고 개혁신당 꼬라지 보면 이준석보단 적어도 정치는 잘하잖아
-
실패.. 오늘은 일찟 자기 ( 0 / 1 )
-
아니 이게 왜? 7
https://orbi.kr/00073433330 저분은 존댓말로 하나하나 친절하게...
-
요즘 스카이가 2등급 떠도 들어간다던데 고려대 사범대학교는 어느정도면 입학할 수 있나요?
-
힘내자...
-
저격 6
-
2049년에 출마함
-
신드리 싫으면 좋아요 14
속상해서 울었어..
-
6모이후로 한번도 안함
-
우리는 전교회장 선거 나오는 후보마다 고추장을 한 숟갈 먹는 것을 보여드림으로서...
-
노래 좋네
-
으아아 2
정사영 넓이로 이면각 구하는거 자꾸 생각을 못하네 푸리시간을 줄여야하느덷이ㅣ디티ㅣ
-
현역 나이로 대학 가면 되잖아
-
피.램 하트 슝슝 언제 고쳐지는데ㅡㅡ
-
겨우 다풀었다 휴 (사실 57번은 던졌음) 뒤지게 어렵네 거 휴강기간이랑 서바...
-
07년생
-
오르비 굿밤 4
-
공부할때 누가 옆에만있어도 거슬림 원래 안이랬는데
-
복습을 해야한다는 사실마저 복습을 안해서 망각함.....
-
어떠신가요??:
-
나 등장 8
으하하
-
그렇습니다
첫번째 댓글의 주인공이 되어보세요.