TaeKyoung's Study Blog

  • 홈
  • 태그
  • 방명록

정책 1

[강화학습] 3. Reward and Policy

Reward (보상) Reward $R_t$는 $t$시점에서 에이전트가 얼마나 잘 하고 있는지를 피드백해주는 스칼라 값이다 에이전트의 목표는 누적 보상 값을 최대화하는 것이다 [Reward Hypothesis] 모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다. 보상 함수는 다양한 형태로 존재한다. $R = R(s), R(s,a), R(s,a,s')$ 모든 Transition $(s,a,s',r)$에 대한 $p(s', r|s, a)$가 알려진 하에, 다음을 계산할 수 있다 $P(S_{t+1} = s' | S_t = s; A_t = a) = \sum_{r \in R} p(s', r | s, a)$ $R_a(s) = r(s, a) = \mathbb{E} \left[ R_{t+1} | ..

산업공학/Reinforcement Learning 2024.03.20
이전
1
다음
더보기
06-03 19:44

방문자수Total

  • Today :
  • Yesterday :
프로필사진

안녕하세요, 퀀트에 관심 있는 산업공학과와 소프트웨어융합학과 학생입니다. 학부 생활하며 공부했던 내용을 담은 기술 블로그입니다. 블로그 내의 게시글들은 수익 창출 목적이 아닌 오로지 학습 정리용입니다.

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
  • 전체 (87)
    • Programming (6)
      • C++ (5)
      • Python (1)
      • SQL (0)
    • 산업공학 (37)
      • 경영과학 (8)
      • 자료구조 (4)
      • 데이터분석 (2)
      • Machine Learning (7)
      • Deep Learning (10)
      • Reinforcement Learning (6)
    • Mathematics (8)
      • 선형대수학 (0)
      • 미분방정식 (3)
      • 통계학 (5)
      • 해석학 (0)
    • 자격증 (5)
      • 투자자산운용사 (5)
    • 경제학 (4)
    • 금융공학 (14)
    • Projects (7)
    • Paper Reviews (6)

Tag

손실함수, 머신러닝, 딥러닝, 민감도 분석, 선형계획, 최적화, C++, 금융, 조합최적화, TSP, 배열, arimax, 민감도, 경영과학, 경제성공학, pytorch, 심플렉스, 자료구조, 전처리, 강화학습,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Tae Kyoung's Github

Copyright © Kakao Corp. All rights reserved.

  • TaeKyoung's Github

티스토리툴바