AI & Data/Reinforcement Learning 5

[강화학습] 4. Bellman Equation

Value Functions (가치 함수) 가치 함수는 각 상태 $s$(또는 상태-행동 쌍$(s; a)$)의 퀄리티를 측정합니다. 이때, 정책 $\pi$에 대한 기대 보상은 $G_t$를 따른다. State-Value Function (상태-가치 함수) $v_{\pi}(s)$ 정책 $\pi$를 따랐을 때 특정 상태 $s에서 시작하는 기대 반환을 나타냄 $v_{\pi}(s) = \mathbb{E}_{\pi} \left[ G_t | S_t = s \right]$ Action-Value Function (행동-가치 함수) $q_{\pi}(s,a)$ 상태 $s$에서 행동 $a$를 취하고 이후 $\pi$를 따라갔을 때의 기대 반환을 나타냄 $q_{\pi}(s, a) = \mathbb{E}_{\pi} \left[ G..

[강화학습] 3. Reward and Policy

Reward (보상) Reward $R_t$는 $t$시점에서 에이전트가 얼마나 잘 하고 있는지를 피드백해주는 스칼라 값이다 에이전트의 목표는 누적 보상 값을 최대화하는 것이다 [Reward Hypothesis] 모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다. 보상 함수는 다양한 형태로 존재한다. $R = R(s), R(s,a), R(s,a,s')$ 모든 Transition $(s,a,s',r)$에 대한 $p(s', r|s, a)$가 알려진 하에, 다음을 계산할 수 있다 $P(S_{t+1} = s' | S_t = s; A_t = a) = \sum_{r \in R} p(s', r | s, a)$ $R_a(s) = r(s, a) = \mathbb{E} \left[ R_{t+1} | ..

[코드 리뷰] RL4CO : PDP (Pickup and Delivery Problem)

이 글은 RL4CO 라이브러리 중 PDP(Pickup and Delivery Problem) 문제에 대한 알고리즘 코드를 구현하고 리뷰한 내용이다. 기본 소스 코드는 다음 Github 주소를 참고하였다. http://RL4CORL4CO" target="_blank" rel="noopener" data-mce-href="http://RL4CO">http://RL4CO GitHub - ai4co/rl4co: A PyTorch library for all things Reinforcement Learning (RL) for Combinatorial Optimization (CO) A PyTorch library for all things Reinforcement Learning (RL) for Combinat..

[강화학습] 2. Markov Decision Process (MDP)

이전 글에서 강화학습의 정의와 요소들에 대해 다뤄보았다. 강화학습이란 주어진 Environment 내에서 Agent가 Reward를 최대화하기 위한 목적으로 현재 State에서 다음 State로의 Action을 취하는 학습 과정을 의미한다. 이 학습 과정에서 Agent는 특정한 확률로 이전에서 다음 State로의 Action을 취하는 의사결정을 하게 되는데, 오늘은 이러한 의사결정을 하는 데에 기반이 되는 수학적 모델인 Markov Decision Process(MDP)에 대해 알아볼 것이다. Grid World MDP에 대해 알아보기 전에 우선 Grid World가 무엇인지 살펴보자. Grid World란 강화학습이나 인공 지능 분야에서 사용되는 가상 시뮬레이션 환경이다. 이 환경은 격자(grid)로 ..

[강화학습] 1. Introduction to Reinforcement Learning

강화학습$($Reinforcement Learning$)$이란? 강화학습$($Reinforcement Learning, RL$)$은 머신러닝의 한 분야로, 에이전트가 환경과의 상호작용을 통해 어떤 목표를 달성하기 위한 최적의 행동 전략을 학습하는 과정이다. 여기서 중요한 점은 강화학습은 머신러닝의 학습 기법 중 하나이지만, 학습하는 방식은 일반적인 머신러닝과는 다르다는 점이다. 머신러닝과 강화학습의 차이점 학습 방식 피드백의 형태 환경 사용 데이터 머신러닝 -Supervised Learning -Unsupervised Learning -Instant Feedback -Correct Answer -Static Dataset -Fixed Dataset 강화학습 -No Supervisor -By Trial a..