일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 논문 리뷰
- 논문리뷰
- 파이썬
- Self-supervised
- 프로그래머스
- 머신러닝
- ViT
- Convolution
- cnn
- 알고리즘
- 파이토치
- object detection
- optimizer
- 인공지능
- 코딩테스트
- 논문
- pytorch
- 강화학습
- opencv
- transformer
- Ai
- Semantic Segmentation
- Python
- Segmentation
- programmers
- 딥러닝
- 논문구현
- 코드구현
- Computer Vision
- 옵티마이저
- Today
- Total
목록딥러닝 (26)
Attention please

Q-learning앞서 다루었던 TD(Temporal Difference) 에서 target policy와 behavior policy가 동일한 경우 on-policy, 동일하지 않은 경우 off-policy라고 하였습니다. 그 중, 이번에 다룰 Q-learning은 off-policy 알고리즘입니다.2025.04.15 - [딥러닝/Reinforcement Learning] - [강화 학습] On-policy vs Off-policy [강화 학습] On-policy vs Off-policyTemporal DifferenceOn-policy 와 Off-policy에 대해 들어가기 전 TD(Temporal Difference)에 대해 다시 한번 짚고 넘어가보도록 하겠습니다. $$Q(s_t, a_t) \lef..

Temporal DifferenceOn-policy 와 Off-policy에 대해 들어가기 전 TD(Temporal Difference)에 대해 다시 한번 짚고 넘어가보도록 하겠습니다. $$Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left( R_t + \gamma Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t) \right)$$ 위 수식은 TD를 보여주고 있으며, $\alpha$는 학습률을 나타내며, TD의 가장 핵심이 되는 $ Q(s_{t+1}, a_{t+1}) $ 는 다음 상태-행동의 예측 value값인 TD target이 됩니다. $$Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left( \underbrace..

목표는 Value Function 추정강화학습의 목표는 "환경과 상호작용하면서, 누적 보상을 최대화하는 정책을 찾는 것" 입니다. 이 목표를 달성하기 위해서 Agent는 매 순간 "지금 상태에서 어떤 행동이 장기적으로 가장 이득이 되는 행동일까?" 를 판단하여야 합니다.물론 지금 당장 눈앞의 보상만 보고 판단하면 안되며, 미래에 어떤 일이 일어날지 생각하며 행동해야 합니다. 이와 같이 최적의 행동을 하기 위해 등장한 것이 바로 Value Function 입니다. Value Function은 크게 "State Value Function", "Action Value Function" 두 가지 종류가 있습니다. 1. State Value Function: 상태 $s$에 있을 때, 정책 $\pi$를 따를 경우 ..

What is Bellman Equation?강화학습(Reinforcement Learning)을 이해할 때 가장 중요한 개념 중 하나는 벨만 방정식(Bellman Equation) 입니다. 이 방정식은 Agent가 어떤 상태(state)에서 어떤 행동(action)을 할지 결정하는 데 필요한 "가치(value)"를 수학적으로 정의해줍니다. 강화학습은 Agent가 환경과 상호작용하면서 보상을 최대화하는 방향으로 학습하는 프레임워크입니다. 이때 가장 중요한 질문은 다음과 같습니다."지금 내가 어떤 상태에 있을 때, 어떤 행동을 하는 게 가장 좋을까?" 위 질문에 답하기 위해서는, 각 상태 혹은 행동이 얼마나 "좋은지"를 수치화하여야 합니다. 이를 함수로서 정의한 것이 바로 가치 함수(Value Funct..

computer vision에서 가장 처음이자 각광을 받았던 분야는 image classification입니다. 특히 ILSVRC 대회가 열리게 되면서 풍부한 ImageNet 데이터셋을 가지고 많은 사람들이 image classification challenge에 뛰어들었으며, 많은 발전들이 있었습니다. 대표적으로 2012년도의 AlexNet을 시작으로 현재에도 여러 방면으로 활용되고 있는 VGG, Inception, ResNet 등 많은 모델들이 나오기 시작했습니다. 하지만 사람들은 이러한 기법들을 단순히 image classification에서 만족하지 않았으며, 각 객체의 위치를 탐지하는 Image segmentation 에서도 활용하게 됩니다. 간단하게 설명하자면 classification의 경우..

Object Detection? 지금까지 CNN 모델은 분류(classification) 문제에 적용되어왔다. 즉, 어떤 image가 들어오게 되면 해당 image가 무엇인지 분류하는 작업을 해왔다. 이 classification에 객체의 위치를 특정해주는 Localization 개념이 포함되면 그것을 Object Detection이라 부른다. ● Classification : 개, 고양이, 사자, 표범과 같이 특정 image가 어떤 객체인지 class를 분류하는 것을 의미한다. 보통 CNN 모델만을 사용하며 Object Detection과 Segmentation 모델의 backbone으로 사용된다. ● Classification + Localization : Localization은 1개의 object..