Reward (보상) Reward Rt는 t시점에서 에이전트가 얼마나 잘 하고 있는지를 피드백해주는 스칼라 값이다 에이전트의 목표는 누적 보상 값을 최대화하는 것이다 [Reward Hypothesis] 모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다. 보상 함수는 다양한 형태로 존재한다. R=R(s),R(s,a),R(s,a,s′) 모든 Transition (s,a,s′,r)에 대한 p(s′,r|s,a)가 알려진 하에, 다음을 계산할 수 있다 P(St+1=s′|St=s;At=a)=∑r∈Rp(s′,r|s,a) $R_a(s) = r(s, a) = \mathbb{E} \left[ R_{t+1} | ..