[강화학습] 3. Reward and Policy

산업공학/Reinforcement Learning

테드리 2024. 3. 20. 01:14

[Reward Hypothesis]
모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다.

모든 Transition $(s,a,s',r)$에 대한 $p(s', r|s, a)$가 알려진 하에, 다음을 계산할 수 있다

$P(S_{t+1} = s' | S_t = s; A_t = a) = \sum_{r \in R} p(s', r | s, a)$
$R_a(s) = r(s, a) = \mathbb{E} \left[ R_{t+1} | St = s, At = a \right] = \sum_{r \in R} r \sum_{s' \in S} p(s', r | s, a)$
$R_a(s, s') = r(s, a, s') = \mathbb{E} \left[ R_{t+1} | St = s, At = a, St+1 = s' \right] = \frac{\sum_{r \in R} r \cdot p(s', r | s, a)}{p(s' | s, a)}$

Return $G_t$는 $t$시점에서의 총할인된 보상들의 총합이다.$$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$
Discount(할인율) $\gamma \in [0,1]$ 는 즉각적인 보상과 미래 보상의 효과를 보정
대부분의 MDP는 할인됩니다. 왜 ?
- 수학적으로 편리함(무한 수익률 방지)
- 미래의 불확실성(보상 가치가 기하급수적으로 감소)
- 실제로는 즉각적인 보상이 지연된 보상보다 더 많은 이자를 얻을 수 있음.

(Stochastic) Policy $\pi$는 주어진 환경에 대한행동에 대한 확률 분포다. $$\pi(a|s) = P(A_t = a | S_t = s)$$
Deterministic Policy (State 1개에 Action 1개) 이면 $\pi(s) = a$
Policy $\pi$는 상태 $s$에서 취해야 할 최적 행동 $a$에 대한 가이드라인 제시
MDP가 알려져 있으면, Deterministic Policy를 찾는 문제
MDP가 알려져 있지 않으면, $\epsilon$-greedy policy ($\epsilon$ : 랜덤하게 선택, $1-\epsilon$ : Optimal 선택)

[강화학습] Dynamic Programming (동적 계획법) (0)	2025.03.31
[강화학습] 4. Bellman Equation (1)	2024.03.20
[코드 리뷰] RL4CO : PDP (Pickup and Delivery Problem) (1)	2024.03.19
[강화학습] 2. Markov Decision Process (MDP) (1)	2024.02.21
[강화학습] 1. Introduction to Reinforcement Learning (0)	2024.02.06

07-07 05:07

안녕하세요, 퀀트에 관심 있는 산업공학과와 소프트웨어융합학과 학생입니다. 학부 생활하며 공부했던 내용을 담은 기술 블로그입니다. 블로그 내의 게시글들은 수익 창출 목적이 아닌 오로지 학습 정리용입니다.

arimax, 최적화, 금융, 민감도, 경제성공학, 경영과학, 전처리, 손실함수, 배열, 자료구조, C++, 민감도 분석, 강화학습, 딥러닝, 머신러닝, pytorch, 선형계획, 심플렉스, TSP, 조합최적화,

TaeKyoung's Study Blog