'어드밴티지 함수' 태그의 글 목록

Loading [MathJax]/jax/output/CommonHTML/jax.js

어드밴티지 함수 1

Value Functions (가치 함수) 가치 함수는 각 상태 $s$ (또는 상태-행동 쌍 $(s; a)$ )의 퀄리티를 측정합니다. 이때, 정책 $\pi$ 에 대한 기대 보상은 $G_t$ 를 따른다. State-Value Function (상태-가치 함수) $v_{\pi}(s)$ 정책 $\pi$ 를 따랐을 때 특정 상태 $s에서 시작하는 기대 반환을 나타냄$ v_{\pi}(s) = \mathbb{E}_{\pi} \left[ G_t | S_t = s \right] $Action-Value Function (행동-가치 함수)$ q_{\pi}(s,a) $상태$ s $에서 행동$ a $를 취하고 이후$ \pi $를 따라갔을 때의 기대 반환을 나타냄$ q_{\pi}(s, a) = \mathbb{E}_{\pi} \left[ G..

AI & Data/Reinforcement Learning 2024.03.20

01-04 07:12

Today :
Yesterday :

안녕하세요, 퀀트에 관심 있는 산업공학과와 소프트웨어융합학과 학생입니다. 학부 생활하며 공부했던 내용을 담은 기술 블로그입니다. 블로그 내의 게시글들은 수익 창출 목적이 아닌 오로지 학습 정리용입니다.

손실함수, RL4CO, 자료구조, 강화학습, train set, 전처리, pytorch, 명목 이자율, 선형계획, 배열, 머신러닝, TSP, 조합최적화, 딥러닝, 최적화, 경제성공학, 금융, C++, 민감도, 경영과학,

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

TaeKyoung's Study Blog

어드밴티지 함수 1

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역