Reward (보상)
- Reward $R_t$는 $t$시점에서 에이전트가 얼마나 잘 하고 있는지를 피드백해주는 스칼라 값이다
- 에이전트의 목표는 누적 보상 값을 최대화하는 것이다
[Reward Hypothesis]
모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다.
- 보상 함수는 다양한 형태로 존재한다. $R = R(s), R(s,a), R(s,a,s')$
모든 Transition $(s,a,s',r)$에 대한 $p(s', r|s, a)$가 알려진 하에, 다음을 계산할 수 있다
- $P(S_{t+1} = s' | S_t = s; A_t = a) = \sum_{r \in R} p(s', r | s, a)$
- $R_a(s) = r(s, a) = \mathbb{E} \left[ R_{t+1} | St = s, At = a \right] = \sum_{r \in R} r \sum_{s' \in S} p(s', r | s, a)$
- $R_a(s, s') = r(s, a, s') = \mathbb{E} \left[ R_{t+1} | St = s, At = a, St+1 = s' \right] = \frac{\sum_{r \in R} r \cdot p(s', r | s, a)}{p(s' | s, a)}$
Return
- Return $G_t$는 $t$시점에서의 총할인된 보상들의 총합이다.$$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$
- Discount(할인율) $\gamma \in [0,1]$ 는 즉각적인 보상과 미래 보상의 효과를 보정
- 대부분의 MDP는 할인됩니다. 왜 ?
- 수학적으로 편리함(무한 수익률 방지)
- 미래의 불확실성(보상 가치가 기하급수적으로 감소)
- 실제로는 즉각적인 보상이 지연된 보상보다 더 많은 이자를 얻을 수 있음.
Policy (정책)
- (Stochastic) Policy $\pi$는 주어진 환경에 대한행동에 대한 확률 분포다. $$\pi(a|s) = P(A_t = a | S_t = s)$$
- Deterministic Policy (State 1개에 Action 1개) 이면 $\pi(s) = a$
- Policy $\pi$는 상태 $s$에서 취해야 할 최적 행동 $a$에 대한 가이드라인 제시
- MDP가 알려져 있으면, Deterministic Policy를 찾는 문제
- MDP가 알려져 있지 않으면, $\epsilon$-greedy policy ($\epsilon$ : 랜덤하게 선택, $1-\epsilon$ : Optimal 선택)
'AI & Data > Reinforcement Learning' 카테고리의 다른 글
[강화학습] 4. Bellman Equation (0) | 2024.03.20 |
---|---|
[코드 리뷰] RL4CO : PDP (Pickup and Delivery Problem) (0) | 2024.03.19 |
[강화학습] 2. Markov Decision Process (MDP) (0) | 2024.02.21 |
[강화학습] 1. Introduction to Reinforcement Learning (0) | 2024.02.06 |