일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 프로그래머스
- pytorch
- Self-supervised
- 코딩테스트
- opencv
- 옵티마이저
- 알고리즘
- cnn
- 논문구현
- Computer Vision
- 코드구현
- programmers
- 강화학습
- optimizer
- transformer
- 파이썬
- 논문
- 머신러닝
- 논문 리뷰
- Segmentation
- Ai
- 논문리뷰
- 인공지능
- 딥러닝
- 파이토치
- Python
- Convolution
- Semantic Segmentation
- ViT
- object detection
Archives
- Today
- Total
목록2025/04/19 (1)
Attention please

Q-learning앞서 다루었던 TD(Temporal Difference) 에서 target policy와 behavior policy가 동일한 경우 on-policy, 동일하지 않은 경우 off-policy라고 하였습니다. 그 중, 이번에 다룰 Q-learning은 off-policy 알고리즘입니다.2025.04.15 - [딥러닝/Reinforcement Learning] - [강화 학습] On-policy vs Off-policy [강화 학습] On-policy vs Off-policyTemporal DifferenceOn-policy 와 Off-policy에 대해 들어가기 전 TD(Temporal Difference)에 대해 다시 한번 짚고 넘어가보도록 하겠습니다. $$Q(s_t, a_t) \lef..
딥러닝/Reinforcement Learning
2025. 4. 19. 20:08