TaeKyoung's Study Blog

  • 홈
  • 태그
  • 방명록

그리드 월드 1

[강화학습] 2. Markov Decision Process (MDP)

이전 글에서 강화학습의 정의와 요소들에 대해 다뤄보았다. 강화학습이란 주어진 Environment 내에서 Agent가 Reward를 최대화하기 위한 목적으로 현재 State에서 다음 State로의 Action을 취하는 학습 과정을 의미한다. 이 학습 과정에서 Agent는 특정한 확률로 이전에서 다음 State로의 Action을 취하는 의사결정을 하게 되는데, 오늘은 이러한 의사결정을 하는 데에 기반이 되는 수학적 모델인 Markov Decision Process(MDP)에 대해 알아볼 것이다. Grid World MDP에 대해 알아보기 전에 우선 Grid World가 무엇인지 살펴보자. Grid World란 강화학습이나 인공 지능 분야에서 사용되는 가상 시뮬레이션 환경이다. 이 환경은 격자(grid)로 ..

산업공학/Reinforcement Learning 2024.02.21
이전
1
다음
더보기
05-17 12:14

방문자수Total

  • Today :
  • Yesterday :
프로필사진

안녕하세요, 퀀트에 관심 있는 산업공학과와 소프트웨어융합학과 학생입니다. 학부 생활하며 공부했던 내용을 담은 기술 블로그입니다. 블로그 내의 게시글들은 수익 창출 목적이 아닌 오로지 학습 정리용입니다.

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
  • 전체 (87)
    • Programming (6)
      • C++ (5)
      • Python (1)
      • SQL (0)
    • 산업공학 (37)
      • 경영과학 (8)
      • 자료구조 (4)
      • 데이터분석 (2)
      • Machine Learning (7)
      • Deep Learning (10)
      • Reinforcement Learning (6)
    • Mathematics (8)
      • 선형대수학 (0)
      • 미분방정식 (3)
      • 통계학 (5)
      • 해석학 (0)
    • 자격증 (5)
      • 투자자산운용사 (5)
    • 경제학 (4)
    • 금융공학 (14)
    • Projects (7)
    • Paper Reviews (6)

Tag

C++, 머신러닝, 강화학습, TSP, 경제성공학, 조합최적화, pytorch, 민감도, 금융, 딥러닝, 최적화, 선형계획, 손실함수, 민감도 분석, 전처리, 경영과학, 심플렉스, 자료구조, arimax, 배열,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Tae Kyoung's Github

Copyright © Kakao Corp. All rights reserved.

  • TaeKyoung's Github

티스토리툴바