Reward (보상)
- Reward RtRt는 tt시점에서 에이전트가 얼마나 잘 하고 있는지를 피드백해주는 스칼라 값이다
- 에이전트의 목표는 누적 보상 값을 최대화하는 것이다
[Reward Hypothesis]
모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다.
- 보상 함수는 다양한 형태로 존재한다. R=R(s),R(s,a),R(s,a,s′)
모든 Transition (s,a,s′,r)에 대한 p(s′,r|s,a)가 알려진 하에, 다음을 계산할 수 있다
- P(St+1=s′|St=s;At=a)=∑r∈Rp(s′,r|s,a)
- Ra(s)=r(s,a)=E[Rt+1|St=s,At=a]=∑r∈Rr∑s′∈Sp(s′,r|s,a)
- Ra(s,s′)=r(s,a,s′)=E[Rt+1|St=s,At=a,St+1=s′]=∑r∈Rr⋅p(s′,r|s,a)p(s′|s,a)
Return
- Return Gt는 t시점에서의 총할인된 보상들의 총합이다.Gt=Rt+1+γRt+2+γ2Rt+3+…=∞∑k=0γkRt+k+1
- Discount(할인율) γ∈[0,1] 는 즉각적인 보상과 미래 보상의 효과를 보정
- 대부분의 MDP는 할인됩니다. 왜 ?
- 수학적으로 편리함(무한 수익률 방지)
- 미래의 불확실성(보상 가치가 기하급수적으로 감소)
- 실제로는 즉각적인 보상이 지연된 보상보다 더 많은 이자를 얻을 수 있음.
Policy (정책)
- (Stochastic) Policy π는 주어진 환경에 대한행동에 대한 확률 분포다. π(a|s)=P(At=a|St=s)
- Deterministic Policy (State 1개에 Action 1개) 이면 π(s)=a
- Policy π는 상태 s에서 취해야 할 최적 행동 a에 대한 가이드라인 제시
- MDP가 알려져 있으면, Deterministic Policy를 찾는 문제
- MDP가 알려져 있지 않으면, ϵ-greedy policy (ϵ : 랜덤하게 선택, 1−ϵ : Optimal 선택)
'산업공학 > Reinforcement Learning' 카테고리의 다른 글
[강화학습] Dynamic Programming (동적 계획법) (0) | 2025.03.31 |
---|---|
[강화학습] 4. Bellman Equation (1) | 2024.03.20 |
[코드 리뷰] RL4CO : PDP (Pickup and Delivery Problem) (0) | 2024.03.19 |
[강화학습] 2. Markov Decision Process (MDP) (1) | 2024.02.21 |
[강화학습] 1. Introduction to Reinforcement Learning (0) | 2024.02.06 |