Value Functions (가치 함수)
가치 함수는 각 상태 s(또는 상태-행동 쌍(s;a))의 퀄리티를 측정합니다. 이때, 정책 π에 대한 기대 보상은 Gt를 따른다.
- State-Value Function (상태-가치 함수) vπ(s)
- 정책 π를 따랐을 때 특정 상태 $s에서 시작하는 기대 반환을 나타냄
- vπ(s)=Eπ[Gt|St=s]
- Action-Value Function (행동-가치 함수) qπ(s,a)
- 상태 s에서 행동 a를 취하고 이후 π를 따라갔을 때의 기대 반환을 나타냄
- qπ(s,a)=Eπ[Gt|St=s,At=a]
- Advantage Function (어드밴티지 함수)
- Aπ(s,a)=qπ(s,a)−vπ(s)
- 여기서, vπ(s)=∑aπ(a|s)qπ(s,a)

Bellman Equation
Bellman Equation은 벨맨 방정식은 재귀 방정식으로, 상태값 함수 vπ(s) 를 즉각적인 보상 Rt+1과 할인된 다음 상태 값 γvπ(St+1)로 분해한다.
vπ(s)=Eπ[Gt|St=s]=∑aEπ[Gt|St=s,At=a]π(a|s)=∑aπ(a|s)Eπ[Rt+1+γGt+1|St=s,At=a]=∑aπ(a|s)∑s′,rEπ[Rt+1+γGt+1|St=s,At=a,St+1=s′,Rt+1=r]p(s′,r|s,a)=∑aπ(a|s)∑s′,rp(s′,r|s,a)(r+γvπ(s′))=∑aπ(a|s)(E[Ras]+γ∑s′p(s′|s,a)vπ(s′))=Eπ[Rt+1+γvπ(St+1)|St=s]
qπ(s,a)=Eπ[Gt|St=s,At=a]=∑s′,rp(s′,r|s,a)(r+γ∑a′π(a′|s′)qπ(s′,a′))=Eπ[Rt+1+γqπ(St+1,At+1)|St=s,At=a]

Optimal Value Functions and Policy
최적값 함수는 다른 모든 값 함수와 비교했을 때 최대값을 산출한다.
최적의 값 함수를 찾으면 MDP가 'solved '된다
- Optimal State-Value Function: v∗(s)=maxπvπ(s)
- Optimal Action-Value Function: q∗(s,a)=maxπqπ(s,a)
[Theorem] 그 어떤 MDP도 다음을 만족한다
1. 모든 π에 대해 optimal policy π∗≥π가 존재한다.
2. 모든 optimal policy는 vπ∗(s)=v∗(s)를 achieve 한다.
3. 모든 optimal policy는 qπ∗(s,a)=q∗(s,a)를 achieve 한다
Optimal Policy는 q∗(s,a)를 maximize함으로써 도출될 수 있다.
π∗(a|s)={1 if a=argmaxaq∗(s,a)0 if\;\;\; otherwise
Bellman Optimality Equation
v∗(s)=maxa∈A(s)q∗(s,a)=maxaEπ∗[Gt|St=s,At=a] =maxaEπ∗[Rt+1+γGt+1|St=s,At=a] =maxaE[Rt+1+γv∗(St+1)|St=s,At=a] =maxa∑s′,rp(s′,r|s,a)(r+γv∗(s′))
q∗(s,a)=E[Rt+1+γmaxa′q∗(St+1,a′)|St=s,At=a] =∑s′,rp(s′,r|s,a)(r+γmaxa′q∗(s′,a′))

참고 문헌
오승상 강화학습" target="_blank" rel="noopener" data-mce-href="http://오승상 강화학습">http://오승상 강화학습
오승상 강화학습 Deep Reinforcement Learning
고려대학교 오승상 교수의 강화학습 Deep Reinforcement Learning 강의 입니다. (자료) https://sites.google.com/view/seungsangoh
www.youtube.com
'산업공학 > Reinforcement Learning' 카테고리의 다른 글
[강화학습] Dynamic Programming (동적 계획법) (0) | 2025.03.31 |
---|---|
[강화학습] 3. Reward and Policy (0) | 2024.03.20 |
[코드 리뷰] RL4CO : PDP (Pickup and Delivery Problem) (0) | 2024.03.19 |
[강화학습] 2. Markov Decision Process (MDP) (1) | 2024.02.21 |
[강화학습] 1. Introduction to Reinforcement Learning (0) | 2024.02.06 |