TaeKyoung's Study Blog

  • 홈
  • 태그
  • 방명록

벨만 방정식 1

[강화학습] 4. Bellman Equation

Value Functions (가치 함수) 가치 함수는 각 상태 $s$(또는 상태-행동 쌍$(s; a)$)의 퀄리티를 측정합니다. 이때, 정책 $\pi$에 대한 기대 보상은 $G_t$를 따른다. State-Value Function (상태-가치 함수) $v_{\pi}(s)$ 정책 $\pi$를 따랐을 때 특정 상태 $s에서 시작하는 기대 반환을 나타냄 $v_{\pi}(s) = \mathbb{E}_{\pi} \left[ G_t | S_t = s \right]$ Action-Value Function (행동-가치 함수) $q_{\pi}(s,a)$ 상태 $s$에서 행동 $a$를 취하고 이후 $\pi$를 따라갔을 때의 기대 반환을 나타냄 $q_{\pi}(s, a) = \mathbb{E}_{\pi} \left[ G..

산업공학/Reinforcement Learning 2024.03.20
이전
1
다음
더보기
05-31 05:48

방문자수Total

  • Today :
  • Yesterday :
프로필사진

안녕하세요, 퀀트에 관심 있는 산업공학과와 소프트웨어융합학과 학생입니다. 학부 생활하며 공부했던 내용을 담은 기술 블로그입니다. 블로그 내의 게시글들은 수익 창출 목적이 아닌 오로지 학습 정리용입니다.

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
  • 전체 (87)
    • Programming (6)
      • C++ (5)
      • Python (1)
      • SQL (0)
    • 산업공학 (37)
      • 경영과학 (8)
      • 자료구조 (4)
      • 데이터분석 (2)
      • Machine Learning (7)
      • Deep Learning (10)
      • Reinforcement Learning (6)
    • Mathematics (8)
      • 선형대수학 (0)
      • 미분방정식 (3)
      • 통계학 (5)
      • 해석학 (0)
    • 자격증 (5)
      • 투자자산운용사 (5)
    • 경제학 (4)
    • 금융공학 (14)
    • Projects (7)
    • Paper Reviews (6)

Tag

경제성공학, 최적화, 민감도, 심플렉스, 강화학습, pytorch, 조합최적화, arimax, TSP, 손실함수, 금융, 전처리, 딥러닝, 민감도 분석, 머신러닝, C++, 배열, 선형계획, 자료구조, 경영과학,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Tae Kyoung's Github

Copyright © Kakao Corp. All rights reserved.

  • TaeKyoung's Github

티스토리툴바