TaeKyoung's Study Blog

  • 홈
  • 태그
  • 방명록

벨만 방정식 1

[강화학습] 4. Bellman Equation

Value Functions (가치 함수) 가치 함수는 각 상태 $s$(또는 상태-행동 쌍$(s; a)$)의 퀄리티를 측정합니다. 이때, 정책 $\pi$에 대한 기대 보상은 $G_t$를 따른다. State-Value Function (상태-가치 함수) $v_{\pi}(s)$ 정책 $\pi$를 따랐을 때 특정 상태 $s에서 시작하는 기대 반환을 나타냄 $v_{\pi}(s) = \mathbb{E}_{\pi} \left[ G_t | S_t = s \right]$ Action-Value Function (행동-가치 함수) $q_{\pi}(s,a)$ 상태 $s$에서 행동 $a$를 취하고 이후 $\pi$를 따라갔을 때의 기대 반환을 나타냄 $q_{\pi}(s, a) = \mathbb{E}_{\pi} \left[ G..

산업공학/Reinforcement Learning 2024.03.20
이전
1
다음
더보기
06-29 07:43

방문자수Total

  • Today :
  • Yesterday :
프로필사진

안녕하세요, 퀀트에 관심 있는 산업공학과와 소프트웨어융합학과 학생입니다. 학부 생활하며 공부했던 내용을 담은 기술 블로그입니다. 블로그 내의 게시글들은 수익 창출 목적이 아닌 오로지 학습 정리용입니다.

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
  • 전체 (87)
    • Programming (6)
      • C++ (5)
      • Python (1)
      • SQL (0)
    • 산업공학 (37)
      • 경영과학 (8)
      • 자료구조 (4)
      • 데이터분석 (2)
      • Machine Learning (7)
      • Deep Learning (10)
      • Reinforcement Learning (6)
    • Mathematics (8)
      • 선형대수학 (0)
      • 미분방정식 (3)
      • 통계학 (5)
      • 해석학 (0)
    • 자격증 (5)
      • 투자자산운용사 (5)
    • 경제학 (4)
    • 금융공학 (14)
    • Projects (7)
    • Paper Reviews (6)

Tag

머신러닝, 손실함수, 경제성공학, 경영과학, 심플렉스, 최적화, 민감도 분석, arimax, 강화학습, 자료구조, 딥러닝, 배열, C++, 선형계획, 조합최적화, 금융, pytorch, 전처리, TSP, 민감도,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Tae Kyoung's Github

Copyright © Kakao Corp. All rights reserved.

  • TaeKyoung's Github

티스토리툴바