AI & Data/Reinforcement Learning

[강화학습] 3. Reward and Policy

테드리 2024. 3. 20. 01:14

Reward (보상)

  • Reward $R_t$는 $t$시점에서 에이전트가 얼마나 잘 하고 있는지를 피드백해주는 스칼라 값이다
  • 에이전트의 목표는 누적 보상 값을 최대화하는 것이다
[Reward Hypothesis]
모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다.

 

  • 보상 함수는 다양한 형태로 존재한다. $R = R(s), R(s,a), R(s,a,s')$

 

모든 Transition $(s,a,s',r)$에 대한 $p(s', r|s, a)$가 알려진 하에, 다음을 계산할 수 있다

  1. $P(S_{t+1} = s' | S_t = s; A_t = a) = \sum_{r \in R} p(s', r | s, a)$
  2. $R_a(s) = r(s, a) = \mathbb{E} \left[ R_{t+1} | St = s, At = a \right] = \sum_{r \in R} r \sum_{s' \in S} p(s', r | s, a)$
  3. $R_a(s, s') = r(s, a, s') = \mathbb{E} \left[ R_{t+1} | St = s, At = a, St+1 = s' \right] = \frac{\sum_{r \in R} r \cdot p(s', r | s, a)}{p(s' | s, a)}$

 

Return

  • Return $G_t$는 $t$시점에서의 총할인된 보상들의 총합이다.$$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$
  • Discount(할인율) $\gamma \in [0,1]$ 는 즉각적인 보상과 미래 보상의 효과를 보정
  • 대부분의 MDP는 할인됩니다. 왜 ?
    - 수학적으로 편리함(무한 수익률 방지)
    - 미래의 불확실성(보상 가치가 기하급수적으로 감소)
    - 실제로는 즉각적인 보상이 지연된 보상보다 더 많은 이자를 얻을 수 있음.

 

Policy (정책)

  • (Stochastic) Policy $\pi$는 주어진 환경에 대한행동에 대한 확률 분포다. $$\pi(a|s) = P(A_t = a | S_t = s)$$
  • Deterministic Policy (State 1개에 Action 1개) 이면 $\pi(s) = a$
  • Policy $\pi$는 상태 $s$에서 취해야 할 최적 행동 $a$에 대한 가이드라인 제시
  • MDP가 알려져 있으면, Deterministic Policy를 찾는 문제
  • MDP가 알려져 있지 않으면, $\epsilon$-greedy policy ($\epsilon$ : 랜덤하게 선택, $1-\epsilon$ : Optimal 선택)