강화학습 12

[논문 리뷰] Learning to Solve Vehicle Routing Problems with Time Windows through Joint Attention

View Paper" target="_blank" rel="noopener" data-mce-href="http://View Paper">http://View Paper Learning to Solve Vehicle Routing Problems with Time Windows through Joint AttentionMany real-world vehicle routing problems involve rich sets of constraints with respect to the capacities of the vehicles, time windows for customers etc. While in recent years first machine learning models have been dev..

Paper Reviews 2024.06.30

[Time Series & RL] 시계열 분석과 강화학습을 이용한 국내 주식 트레이딩

시계열 예측과 강화학습을 활용한 시스템 트레이딩 수익 극대화본 프로젝트는 BITAmin 이라는 빅데이터 연합 동아리에서 진행한 프로젝트로, 시계열 분석이라는 대주제 내에서 토픽으로 선정한 팀 프로젝트이다. 기간: 2024.03 ~ 2024.06주제: 강화 학습을 이용한 시계열 예측 및 시스템 트레이딩으로 포트폴리오 최적화목적: 시계열 예측으로 다음 5일 간의 각 종목의 수익률을 예측 (최대 변동률 기준) 후 상위 6개 선정, 선정된 6개 종목으로 강화학습을 이용한 단타 매매 1. Introduction1.1. Problems of DL Time Series Forecasting노이즈가 심하다데이터 수가 부족하다과적합이 심한 경우가 많다 1.2. SolutionsTime Series Forecasting:..

Projects 2024.06.27

[강화학습] 4. Bellman Equation

Value Functions (가치 함수) 가치 함수는 각 상태 $s$(또는 상태-행동 쌍$(s; a)$)의 퀄리티를 측정합니다. 이때, 정책 $\pi$에 대한 기대 보상은 $G_t$를 따른다. State-Value Function (상태-가치 함수) $v_{\pi}(s)$ 정책 $\pi$를 따랐을 때 특정 상태 $s에서 시작하는 기대 반환을 나타냄 $v_{\pi}(s) = \mathbb{E}_{\pi} \left[ G_t | S_t = s \right]$ Action-Value Function (행동-가치 함수) $q_{\pi}(s,a)$ 상태 $s$에서 행동 $a$를 취하고 이후 $\pi$를 따라갔을 때의 기대 반환을 나타냄 $q_{\pi}(s, a) = \mathbb{E}_{\pi} \left[ G..

[강화학습] 3. Reward and Policy

Reward (보상) Reward $R_t$는 $t$시점에서 에이전트가 얼마나 잘 하고 있는지를 피드백해주는 스칼라 값이다 에이전트의 목표는 누적 보상 값을 최대화하는 것이다 [Reward Hypothesis] 모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다. 보상 함수는 다양한 형태로 존재한다. $R = R(s), R(s,a), R(s,a,s')$ 모든 Transition $(s,a,s',r)$에 대한 $p(s', r|s, a)$가 알려진 하에, 다음을 계산할 수 있다 $P(S_{t+1} = s' | S_t = s; A_t = a) = \sum_{r \in R} p(s', r | s, a)$ $R_a(s) = r(s, a) = \mathbb{E} \left[ R_{t+1} | ..

[코드 리뷰] RL4CO : PDP (Pickup and Delivery Problem)

이 글은 RL4CO 라이브러리 중 PDP(Pickup and Delivery Problem) 문제에 대한 알고리즘 코드를 구현하고 리뷰한 내용이다. 기본 소스 코드는 다음 Github 주소를 참고하였다. http://RL4CORL4CO" target="_blank" rel="noopener" data-mce-href="http://RL4CO">http://RL4CO GitHub - ai4co/rl4co: A PyTorch library for all things Reinforcement Learning (RL) for Combinatorial Optimization (CO) A PyTorch library for all things Reinforcement Learning (RL) for Combinat..

[논문 리뷰] RL4CO : A Unified Reinforcement Learning for Combinatorial Optimization Library

RL4CO" target="_blank" rel="noopener" data-mce-href="http://RL4CO">http://RL4CO RL4CO: a Unified Reinforcement Learning for Combinatorial Optimization Library Deep reinforcement learning offers notable benefits in addressing combinatorial problems over traditional solvers, reducing the reliance on domain-specific knowledge and expert solutions, and improving computational efficiency. Despite the..

Paper Reviews 2024.03.12

[강화학습] 2. Markov Decision Process (MDP)

이전 글에서 강화학습의 정의와 요소들에 대해 다뤄보았다. 강화학습이란 주어진 Environment 내에서 Agent가 Reward를 최대화하기 위한 목적으로 현재 State에서 다음 State로의 Action을 취하는 학습 과정을 의미한다. 이 학습 과정에서 Agent는 특정한 확률로 이전에서 다음 State로의 Action을 취하는 의사결정을 하게 되는데, 오늘은 이러한 의사결정을 하는 데에 기반이 되는 수학적 모델인 Markov Decision Process(MDP)에 대해 알아볼 것이다. Grid World MDP에 대해 알아보기 전에 우선 Grid World가 무엇인지 살펴보자. Grid World란 강화학습이나 인공 지능 분야에서 사용되는 가상 시뮬레이션 환경이다. 이 환경은 격자(grid)로 ..