[강화학습] 3. Reward and Policy

산업공학/Reinforcement Learning

[강화학습] 3. Reward and Policy

테드리 2024. 3. 20. 01:14

Reward (보상)

Reward $R_t$ 는 $t$ 시점에서 에이전트가 얼마나 잘 하고 있는지를 피드백해주는 스칼라 값이다
에이전트의 목표는 누적 보상 값을 최대화하는 것이다

[Reward Hypothesis]
모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다.

보상 함수는 다양한 형태로 존재한다. $R = R(s), R(s,a), R(s,a,s')$

모든 Transition $(s,a,s',r)$ 에 대한 $p(s', r|s, a)$ 가 알려진 하에, 다음을 계산할 수 있다

$P(S_{t+1} = s' | S_t = s; A_t = a) = \sum_{r \in R} p(s', r | s, a)$
$R_a(s) = r(s, a) = \mathbb{E} \left[ R_{t+1} | St = s, At = a \right] = \sum_{r \in R} r \sum_{s' \in S} p(s', r | s, a)$
$R_a(s, s') = r(s, a, s') = \mathbb{E} \left[ R_{t+1} | St = s, At = a, St+1 = s' \right] = \frac{\sum_{r \in R} r \cdot p(s', r | s, a)}{p(s' | s, a)}$

Return

Return $G_t$ 는 $t$ 시점에서의 총할인된 보상들의 총합이다. $G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$
Discount(할인율) $\gamma \in [0,1]$ 는 즉각적인 보상과 미래 보상의 효과를 보정
대부분의 MDP는 할인됩니다. 왜 ?
- 수학적으로 편리함(무한 수익률 방지)
- 미래의 불확실성(보상 가치가 기하급수적으로 감소)
- 실제로는 즉각적인 보상이 지연된 보상보다 더 많은 이자를 얻을 수 있음.

Policy (정책)

(Stochastic) Policy $\pi$ 는 주어진 환경에 대한행동에 대한 확률 분포다. $\pi(a|s) = P(A_t = a | S_t = s)$
Deterministic Policy (State 1개에 Action 1개) 이면 $\pi(s) = a$
Policy $\pi$ 는 상태 $s$ 에서 취해야 할 최적 행동 $a$ 에 대한 가이드라인 제시
MDP가 알려져 있으면, Deterministic Policy를 찾는 문제
MDP가 알려져 있지 않으면, $\epsilon$ -greedy policy ( $\epsilon$ : 랜덤하게 선택, $1-\epsilon$ : Optimal 선택)

'산업공학 > Reinforcement Learning' 카테고리의 다른 글

[강화학습] Dynamic Programming (동적 계획법) (0)	2025.03.31
[강화학습] 4. Bellman Equation (1)	2024.03.20
[코드 리뷰] RL4CO : PDP (Pickup and Delivery Problem) (0)	2024.03.19
[강화학습] 2. Markov Decision Process (MDP) (1)	2024.02.21
[강화학습] 1. Introduction to Reinforcement Learning (0)	2024.02.06

현재글[강화학습] 3. Reward and Policy

04-13 07:55

Today :
Yesterday :

안녕하세요, 퀀트에 관심 있는 산업공학과와 소프트웨어융합학과 학생입니다. 학부 생활하며 공부했던 내용을 담은 기술 블로그입니다. 블로그 내의 게시글들은 수익 창출 목적이 아닌 오로지 학습 정리용입니다.

금융, C++, 배열, pytorch, 경영과학, 전처리, 심플렉스, arimax, 조합최적화, 명목 이자율, 강화학습, 딥러닝, 민감도, 선형계획, TSP, 머신러닝, 자료구조, 최적화, 손실함수, 경제성공학,

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

TaeKyoung's Study Blog

[강화학습] 3. Reward and Policy

Reward (보상)

Return

Policy (정책)

'산업공학 > Reinforcement Learning' 카테고리의 다른 글

'산업공학/Reinforcement Learning'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[강화학습] 3. Reward and Policy

Reward (보상)

Return

Policy (정책)

'산업공학 > Reinforcement Learning' 카테고리의 다른 글

'산업공학/Reinforcement Learning'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역