Reward (보상) Reward 는 시점에서 에이전트가 얼마나 잘 하고 있는지를 피드백해주는 스칼라 값이다 에이전트의 목표는 누적 보상 값을 최대화하는 것이다 [Reward Hypothesis] 모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다. 보상 함수는 다양한 형태로 존재한다. 모든 Transition 에 대한 가 알려진 하에, 다음을 계산할 수 있다 $R_a(s) = r(s, a) = \mathbb{E} \left[ R_{t+1} | ..