Value Functions (가치 함수) 가치 함수는 각 상태 s(또는 상태-행동 쌍(s;a))의 퀄리티를 측정합니다. 이때, 정책 π에 대한 기대 보상은 Gt를 따른다. State-Value Function (상태-가치 함수) vπ(s) 정책 π를 따랐을 때 특정 상태 s에서시작하는기대반환을나타냄v_{\pi}(s) = \mathbb{E}_{\pi} \left[ G_t | S_t = s \right]Action−ValueFunction(행동−가치함수)q_{\pi}(s,a)상태s에서행동a를취하고이후\pi를따라갔을때의기대반환을나타냄q_{\pi}(s, a) = \mathbb{E}_{\pi} \left[ G..