심미적 읽기 [795473] · MS 2018 (수정됨) · 쪽지

2025-06-14 04:31:57
조회수 255

국어) 수특 독서 지문 정정 재신청

게시글 주소: https://orbi.kr/00073468774

처음에 너무 두서없이 썼는지 반려되어서, 다시 쓴 김에 오르비에도 올립니다.


==========


사진은 순서대로 MRP, MDP, 그리고 수능특강의 <그림>입니다.

<그림>이 MRP와 MDP 중 무엇과 더 유사한지 살펴봐 주시기 바랍니다.

MRP와 MDP 사진 출처는 구글 딥마인드 유튜브 채널의 RL Course 강의자료입니다:
https://m.youtube.com/watch?v=lfHX2hHRMVQ&pp=0gcJCf0Ao7VqN5tD


 





수능특강 지문에서는 <그림>을 MDP로 설명하고 있습니다.


MDP에서는 에이전트가 '상태  행동 → 상태'로 전이되고,
MRP에서는 에이전트가 '상태  상태'로 전이됩니다. MRP에는 행동이 없습니다.


그리고 <그림>을 보면 행동이 없습니다.








위 MDP에서 원은 상태를 뜻하고, 점은 행동을 뜻합니다.


가장 오른쪽 원(상태)에서, 왼쪽의 원(상태)들로 넘어가려면 행동을 거쳐야 합니다.


맨 아래 이 하나 있죠? 'Pub'이라는 행동을 나타낸 것입니다.


그 행동의 결과로, 3개의 원(상태)로 전이될 확률이 각각 0.2, 0.4, 0.4로 주어져 있습니다.




지문의 서술을 보겠습니다.




  '영어 공부' 상태에서는 2가지 행동 중 하나를 취할 수 있는데, 선택한 행동에 따라 다음 상태인 '카페', '운동'으로 이동할 확률, 즉 상태 변이 확률은 각각 0.4와 0.6으로 주어져 있다. 그리고 이때의 보상(R)은 각각 +1, +10이다.


아마 '카페 가기' 행동을 취해 '카페' 상태로 전이될 확률이 0.4이고,


'운동 가기' 행동을 취해 '운동' 상태로 전이될 확률이 0.6인 것으로 읽어야 할 듯합니다.




하지만, 행동은 상태 전이 확률에 따라 정해지는 것이 아닙니다. 지문에도 나와 있습니다.


  정책은 각 상태에서 취할 행동의 묶음이다.


어떤 행동을 선택할 지는 에이전트가 정책으로 정합니다.




만약 '영어 공부' 상태에서 할 2가지 행동, 즉 행동1행동2가 있다면,


에이전트는 정책에 따라 행동1과 행동2 중 하나를 선택할 것이고,


그 결과 '카페''운동' 상태로 전이될 '상태 전이 확률'행동1과 행동2 각각 따로 정해져 있어야 합니다.




예를 들어, 만약 두 행동이 '카페 가기''운동 가기'일 때 에이전트가 '카페 가기' 행동을 선택했다면,


'카페' 상태로 전이될 확률과 '운동'으로 전이될 확률이 각각 주어져야 하는 것입니다.


그리고 만약 이 확률이 각각 0.4와 0.6이라면,


'카페 가기' 행동을 선택했을 때 '운동' 상태로 전이될 확률이 0.6이라는 의미가 됩니다.




만일 그렇지 않고 '카페' 행동을 선택했을 때 '카페' 상태로만 전이된다면,


상태 전이 확률은 0.4나 0.6이 아닌 1이어야 합니다.




또, MDP에서 보상행동에 주어지는 것이지, 상태에 주어지는 것이 아닙니다.





MDP를 보면, 'Pub'이라는 행동에 대해 보상 '+1'이 주어집니다.





그런데 지문의 <그림>을 보면, '카페''운동' 상태에 각각 보상 '+1, +10'이 주어지는 것처럼 보입니다.




'카페 가기' 행동을 했는데 '운동' 상태로 전이되었을 경우를 생각해 보면,

<그림>과 지문 서술로 비추어서는 보상이 +1인지 +10인지 알 수가 없습니다.




보상은 '카페 가기' 행동에 주어져야 합니다.




==========

(이전 신청 건 EBS 답변)


안녕하세요. 회원님의 의견에 대한 답변을 드립니다.


제시문에서 행동과 그에 따른 보상을 설명하고 있으므로, <그림>에서의 상태 간 전이는 에이전트의 행동 선택에 따른 결과로 해석해야 합니다. 즉, 제시문의 설명에 따라 <그림>을 MDP로 이해하는 데 문제가 없다고 판단됩니다.


감사합니다.


0 XDK (+0)

  1. 유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.


  • 첫번째 댓글의 주인공이 되어보세요.