TaeKyoung's Study Blog

  • 홈
  • 태그
  • 방명록

정책 1

[강화학습] 3. Reward and Policy

Reward (보상) Reward RtRt는 tt시점에서 에이전트가 얼마나 잘 하고 있는지를 피드백해주는 스칼라 값이다 에이전트의 목표는 누적 보상 값을 최대화하는 것이다 [Reward Hypothesis] 모든 목표는 보상 누적 합계의 기대치를 최대화하는 것으로 설명할 수 있다. 보상 함수는 다양한 형태로 존재한다. R=R(s),R(s,a),R(s,a,s′)R=R(s),R(s,a),R(s,a,s′) 모든 Transition (s,a,s′,r)(s,a,s′,r)에 대한 p(s′,r|s,a)p(s′,r|s,a)가 알려진 하에, 다음을 계산할 수 있다 P(St+1=s′|St=s;At=a)=∑r∈Rp(s′,r|s,a)P(St+1=s′|St=s;At=a)=∑r∈Rp(s′,r|s,a) $R_a(s) = r(s, a) = \mathbb{E} \left[ R_{t+1} | ..

산업공학/Reinforcement Learning 2024.03.20
이전
1
다음
07-04 07:27

방문자수Total

  • Today :
  • Yesterday :
프로필사진

안녕하세요, 퀀트에 관심 있는 산업공학과와 소프트웨어융합학과 학생입니다. 학부 생활하며 공부했던 내용을 담은 기술 블로그입니다. 블로그 내의 게시글들은 수익 창출 목적이 아닌 오로지 학습 정리용입니다.

Calendar

  2025. 07  
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
  • 전체 (87)
    • Programming (6)
      • C++ (5)
      • Python (1)
      • SQL (0)
    • 산업공학 (37)
      • 경영과학 (8)
      • 자료구조 (4)
      • 데이터분석 (2)
      • Machine Learning (7)
      • Deep Learning (10)
      • Reinforcement Learning (6)
    • Mathematics (8)
      • 선형대수학 (0)
      • 미분방정식 (3)
      • 통계학 (5)
      • 해석학 (0)
    • 자격증 (5)
      • 투자자산운용사 (5)
    • 경제학 (4)
    • 금융공학 (14)
    • Projects (7)
    • Paper Reviews (6)

Tag

조합최적화, arimax, 심플렉스, 민감도 분석, C++, 배열, 경제성공학, 머신러닝, 딥러닝, 전처리, 선형계획, pytorch, 자료구조, TSP, 경영과학, 민감도, 손실함수, 금융, 강화학습, 최적화,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Tae Kyoung's Github

Copyright © Kakao Corp. All rights reserved.

  • TaeKyoung's Github

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.