보상 2

[강화학습] 3. Reward and Policy

Reward (보상) Reward $R_t$는 $t$시점에서 에이전트가 얼마나 잘 하고 있는지를 피드백해주는 스칼라 값이다 에이전트의 목표는 누적 보상 값을 최대화하는 것이다 [Reward Hypothesis] 모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다. 보상 함수는 다양한 형태로 존재한다. $R = R(s), R(s,a), R(s,a,s')$ 모든 Transition $(s,a,s',r)$에 대한 $p(s', r|s, a)$가 알려진 하에, 다음을 계산할 수 있다 $P(S_{t+1} = s' | S_t = s; A_t = a) = \sum_{r \in R} p(s', r | s, a)$ $R_a(s) = r(s, a) = \mathbb{E} \left[ R_{t+1} | ..

[강화학습] 1. Introduction to Reinforcement Learning

강화학습$($Reinforcement Learning$)$이란? 강화학습$($Reinforcement Learning, RL$)$은 머신러닝의 한 분야로, 에이전트가 환경과의 상호작용을 통해 어떤 목표를 달성하기 위한 최적의 행동 전략을 학습하는 과정이다. 여기서 중요한 점은 강화학습은 머신러닝의 학습 기법 중 하나이지만, 학습하는 방식은 일반적인 머신러닝과는 다르다는 점이다. 머신러닝과 강화학습의 차이점 학습 방식 피드백의 형태 환경 사용 데이터 머신러닝 -Supervised Learning -Unsupervised Learning -Instant Feedback -Correct Answer -Static Dataset -Fixed Dataset 강화학습 -No Supervisor -By Trial a..