국어) 수특 독서 지문 정정 재신청
게시글 주소: https://orbi.kr/00073468774
처음에 너무 두서없이 썼는지 반려되어서, 다시 쓴 김에 오르비에도 올립니다.
==========
사진은 순서대로 MRP, MDP, 그리고 수능특강의 <그림>입니다.
<그림>이 MRP와 MDP 중 무엇과 더 유사한지 살펴봐 주시기 바랍니다.
MRP와 MDP 사진 출처는 구글 딥마인드 유튜브 채널의 RL Course 강의자료입니다:
https://m.youtube.com/watch?v=lfHX2hHRMVQ&pp=0gcJCf0Ao7VqN5tD
수능특강 지문에서는 <그림>을 MDP로 설명하고 있습니다.
MDP에서는 에이전트가 '상태 → 행동 → 상태'로 전이되고,
MRP에서는 에이전트가 '상태 → 상태'로 전이됩니다. MRP에는 행동이 없습니다.
그리고 <그림>을 보면 행동이 없습니다.
위 MDP에서 원은 상태를 뜻하고, 점은 행동을 뜻합니다.
가장 오른쪽 원(상태)에서, 왼쪽의 원(상태)들로 넘어가려면 행동을 거쳐야 합니다.
맨 아래 점이 하나 있죠? 'Pub'이라는 행동을 나타낸 것입니다.
그 행동의 결과로, 3개의 원(상태)로 전이될 확률이 각각 0.2, 0.4, 0.4로 주어져 있습니다.
지문의 서술을 보겠습니다.
'영어 공부' 상태에서는 2가지 행동 중 하나를 취할 수 있는데, 선택한 행동에 따라 다음 상태인 '카페', '운동'으로 이동할 확률, 즉 상태 변이 확률은 각각 0.4와 0.6으로 주어져 있다. 그리고 이때의 보상(R)은 각각 +1, +10이다.
아마 '카페 가기' 행동을 취해 '카페' 상태로 전이될 확률이 0.4이고,
'운동 가기' 행동을 취해 '운동' 상태로 전이될 확률이 0.6인 것으로 읽어야 할 듯합니다.
하지만, 행동은 상태 전이 확률에 따라 정해지는 것이 아닙니다. 지문에도 나와 있습니다.
정책은 각 상태에서 취할 행동의 묶음이다.
어떤 행동을 선택할 지는 에이전트가 정책으로 정합니다.
만약 '영어 공부' 상태에서 할 2가지 행동, 즉 행동1과 행동2가 있다면,
에이전트는 정책에 따라 행동1과 행동2 중 하나를 선택할 것이고,
그 결과 '카페'와 '운동' 상태로 전이될 '상태 전이 확률'이 행동1과 행동2 각각 따로 정해져 있어야 합니다.
예를 들어, 만약 두 행동이 '카페 가기'와 '운동 가기'일 때 에이전트가 '카페 가기' 행동을 선택했다면,
'카페' 상태로 전이될 확률과 '운동'으로 전이될 확률이 각각 주어져야 하는 것입니다.
그리고 만약 이 확률이 각각 0.4와 0.6이라면,
'카페 가기' 행동을 선택했을 때 '운동' 상태로 전이될 확률이 0.6이라는 의미가 됩니다.
만일 그렇지 않고 '카페' 행동을 선택했을 때 '카페' 상태로만 전이된다면,
상태 전이 확률은 0.4나 0.6이 아닌 1이어야 합니다.
또, MDP에서 보상은 행동에 주어지는 것이지, 상태에 주어지는 것이 아닙니다.
MDP를 보면, 'Pub'이라는 행동에 대해 보상 '+1'이 주어집니다.
그런데 지문의 <그림>을 보면, '카페'와 '운동' 상태에 각각 보상 '+1, +10'이 주어지는 것처럼 보입니다.
'카페 가기' 행동을 했는데 '운동' 상태로 전이되었을 경우를 생각해 보면,
<그림>과 지문 서술로 비추어서는 보상이 +1인지 +10인지 알 수가 없습니다.
보상은 '카페 가기' 행동에 주어져야 합니다.
==========
(이전 신청 건 EBS 답변)
안녕하세요. 회원님의 의견에 대한 답변을 드립니다.
제시문에서 행동과 그에 따른 보상을 설명하고 있으므로, <그림>에서의 상태 간 전이는 에이전트의 행동 선택에 따른 결과로 해석해야 합니다. 즉, 제시문의 설명에 따라 <그림>을 MDP로 이해하는 데 문제가 없다고 판단됩니다.
감사합니다.
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
-
아잉흥행 11
-
6월 24일부터 반수 시작할 것 같은데 수학 3등급 강사 추천 좀. 4등급일수도....
-
한입에 쏙 들어가고 식감부터 맛 당도 편리함까지 그냥 GOAT
-
볼 사람이 있을까요 그래도 수학적으로 의미 있는 내용이 많고 지금 할 것도 딱히...
-
배기범 on 2
물2 드가자
-
다시고우 5
싯팔
-
옯비언 성희롱하고싶어 14
으으으ㅡㅜ당해줄사람 없나
-
몇주걸리셨나요? 뉴런 미적이랑 병행하는데 너무 오래끄는느낌이라 미적을 좀 놓고...
-
96개 그려봐야겠지?
-
티원은 너무 아쉬운게 13
베이커 연봉 깎아서라도 제우스를 데려왔어야함..
-
이거 진짜 오랜만이네 오르비에 올린적 있음 ㅋㅋ 지금보니까 개똥퀄임 걍
-
티원 이기니까 볼 수 밖에 없네.
-
진지하게 다들 바이럴하는거임? 단원별 1,2개만 좀 어렵고 그마저도 못해도...
-
현생에서는 지방의<<<중경외시 공대 아닌가 여러분 현생을 삽시다
-
질문 있습니다 2
학군지 내신시험은 선생님들이 창의적이고 어렵게 내나요? 아니면 각 학교만의 데이터 베이스로 내나요?
-
현재 징역 30년 받아서 뜨겁게 화제가 된 '야 동 욱' 사건 정리. 16
1. 1999년 9월 14일생 처녀자리. 경기도 동탄 출생. 2....
-
드릴5 하루에 30개 푸는데 5시간 쓰는데 정상인가요 3
머리 찢어질거같다
-
남서울대 1
서울에 없음 ㄷㄷ
-
반박 안 받음
-
라따시야조또아헤시야스코프
-
작년 기출 풀어봤는데 60점나옴ㅋㅋㅋ 영어 원래 못해서 기대 안하고 있긴 했는데...
-
사문 공부계획 0
작년에 학교 내신으로 한 이후로 검더텅만 겨울방학 때 1회독 돌림. 3,5,6모가...
-
내신 때려칠까 4
마지막학기 내신인데 좆같다
-
가좍이 되주라 10
내집이 되주라 나도 날 줄테니 너도 널 쥬라
-
가천대가 낫지 않음?
-
난 지금 클럽이야
-
메타 윤리학은 학제적 접근을 중요시한다 라고 할수있나요?
-
아 ㄱㅐ씨발 2
내신 개좆같으면 개추 ㅋㅋ
-
생2 6
한문제에 40분씩 걸리는 문제 만나면 진짜 접고싶음 시험시간이 30분인데
-
한화 딱대 2
티원이 리벤지 참교육 들어간다
-
나빼고
-
생각보다 과외선생 스펙이라는게 그렇게 중요하지 않은 거 같음 여기서는 백분위 97이...
-
나의 이름은 1
'키라 요시카게'. 33세. 자택은 모리오초 북동부 별장지대에 있으며... 결혼은...
-
신 상 혁
-
KT 컷 ㅋㅋ 4
아 근데 컷해도 다음이 젠지구나
-
치킨마요 맛남 밥 1.25배로해야 소스 다 섞일듯.
-
갑자기 치고 죽어버리네
-
건국대 가야겠지?
-
ㅈㄱㄴ
-
장난감 goat 3
요요
-
다른 커뮤니티도 아니고 공부 커뮤니티니라, 먼저 하시던 분들과 글들이 겹칠까 조금 조심스럽습니다
-
사진보내라
-
안녕하세요 제가 원래 사문, 지구를 선택했다가 6모 후에 지구를 버리고 정법에...
-
내가 이런 공부를 내 가장 소중한 시간 노력 투자해서 한다니 믿기지가 않네 그냥 하하
-
진짜 도란은 3
1티어가 아니다
-
아 시발 나 gpt로 쓴거 제출했는데 시발 싹다개소리만써놨음 3
아오 시발 지피티 저 엄마없는새끼 시발 진로보고서
-
스튜어트 외웟음 3
다행이다
-
아으아으개폐급우솝같은넘
-
노래 존나 신남 진짜
첫번째 댓글의 주인공이 되어보세요.