산업공학/Reinforcement Learning

[강화학습] 3. Reward and Policy

테드리 2024. 3. 20. 01:14

Reward (보상)

  • Reward RtRttt시점에서 에이전트가 얼마나 잘 하고 있는지를 피드백해주는 스칼라 값이다
  • 에이전트의 목표는 누적 보상 값을 최대화하는 것이다
[Reward Hypothesis]
모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다.

 

  • 보상 함수는 다양한 형태로 존재한다. R=R(s),R(s,a),R(s,a,s)

 

모든 Transition (s,a,s,r)에 대한 p(s,r|s,a)가 알려진 하에, 다음을 계산할 수 있다

  1. P(St+1=s|St=s;At=a)=rRp(s,r|s,a)
  2. Ra(s)=r(s,a)=E[Rt+1|St=s,At=a]=rRrsSp(s,r|s,a)
  3. Ra(s,s)=r(s,a,s)=E[Rt+1|St=s,At=a,St+1=s]=rRrp(s,r|s,a)p(s|s,a)

 

Return

  • Return Gtt시점에서의 총할인된 보상들의 총합이다.Gt=Rt+1+γRt+2+γ2Rt+3+=k=0γkRt+k+1
  • Discount(할인율) γ[0,1] 는 즉각적인 보상과 미래 보상의 효과를 보정
  • 대부분의 MDP는 할인됩니다. 왜 ?
    - 수학적으로 편리함(무한 수익률 방지)
    - 미래의 불확실성(보상 가치가 기하급수적으로 감소)
    - 실제로는 즉각적인 보상이 지연된 보상보다 더 많은 이자를 얻을 수 있음.

 

Policy (정책)

  • (Stochastic) Policy π는 주어진 환경에 대한행동에 대한 확률 분포다. π(a|s)=P(At=a|St=s)
  • Deterministic Policy (State 1개에 Action 1개) 이면 π(s)=a
  • Policy π는 상태 s에서 취해야 할 최적 행동 a에 대한 가이드라인 제시
  • MDP가 알려져 있으면, Deterministic Policy를 찾는 문제
  • MDP가 알려져 있지 않으면, ϵ-greedy policy (ϵ : 랜덤하게 선택, 1ϵ : Optimal 선택)