일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Self-supervised
- Semantic Segmentation
- Convolution
- 코드구현
- 코딩테스트
- 파이토치
- 딥러닝
- cnn
- 논문 리뷰
- 옵티마이저
- Ai
- 알고리즘
- programmers
- 파이썬
- 강화학습
- 논문
- object detection
- Python
- Segmentation
- opencv
- transformer
- 인공지능
- 프로그래머스
- pytorch
- optimizer
- Computer Vision
- 논문구현
- 머신러닝
- ViT
- 논문리뷰
- Today
- Total
목록분류 전체보기 (128)
Attention please

이번에 리뷰할 논문은 Playing Atari with Deep Reinforcement Learning 입니다.https://arxiv.org/abs/1312.5602 Playing Atari with Deep Reinforcement LearningWe present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is rawa..

Q-learning앞서 다루었던 TD(Temporal Difference) 에서 target policy와 behavior policy가 동일한 경우 on-policy, 동일하지 않은 경우 off-policy라고 하였습니다. 그 중, 이번에 다룰 Q-learning은 off-policy 알고리즘입니다.2025.04.15 - [딥러닝/Reinforcement Learning] - [강화 학습] On-policy vs Off-policy [강화 학습] On-policy vs Off-policyTemporal DifferenceOn-policy 와 Off-policy에 대해 들어가기 전 TD(Temporal Difference)에 대해 다시 한번 짚고 넘어가보도록 하겠습니다. $$Q(s_t, a_t) \lef..

Temporal DifferenceOn-policy 와 Off-policy에 대해 들어가기 전 TD(Temporal Difference)에 대해 다시 한번 짚고 넘어가보도록 하겠습니다. $$Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left( R_t + \gamma Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t) \right)$$ 위 수식은 TD를 보여주고 있으며, $\alpha$는 학습률을 나타내며, TD의 가장 핵심이 되는 $ Q(s_{t+1}, a_{t+1}) $ 는 다음 상태-행동의 예측 value값인 TD target이 됩니다. $$Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left( \underbrace..

목표는 Value Function 추정강화학습의 목표는 "환경과 상호작용하면서, 누적 보상을 최대화하는 정책을 찾는 것" 입니다. 이 목표를 달성하기 위해서 Agent는 매 순간 "지금 상태에서 어떤 행동이 장기적으로 가장 이득이 되는 행동일까?" 를 판단하여야 합니다.물론 지금 당장 눈앞의 보상만 보고 판단하면 안되며, 미래에 어떤 일이 일어날지 생각하며 행동해야 합니다. 이와 같이 최적의 행동을 하기 위해 등장한 것이 바로 Value Function 입니다. Value Function은 크게 "State Value Function", "Action Value Function" 두 가지 종류가 있습니다. 1. State Value Function: 상태 $s$에 있을 때, 정책 $\pi$를 따를 경우 ..

What is Bellman Equation?강화학습(Reinforcement Learning)을 이해할 때 가장 중요한 개념 중 하나는 벨만 방정식(Bellman Equation) 입니다. 이 방정식은 Agent가 어떤 상태(state)에서 어떤 행동(action)을 할지 결정하는 데 필요한 "가치(value)"를 수학적으로 정의해줍니다. 강화학습은 Agent가 환경과 상호작용하면서 보상을 최대화하는 방향으로 학습하는 프레임워크입니다. 이때 가장 중요한 질문은 다음과 같습니다."지금 내가 어떤 상태에 있을 때, 어떤 행동을 하는 게 가장 좋을까?" 위 질문에 답하기 위해서는, 각 상태 혹은 행동이 얼마나 "좋은지"를 수치화하여야 합니다. 이를 함수로서 정의한 것이 바로 가치 함수(Value Funct..

이번에 리뷰할 논문은 Mind with Eyes: from Language Reasoning to Multimodal Reasoning 입니다.https://arxiv.org/abs/2503.18071 Mind with Eyes: from Language Reasoning to Multimodal ReasoningLanguage models have recently advanced into the realm of reasoning, yet it is through multimodal reasoning that we can fully unlock the potential to achieve more comprehensive, human-like cognitive capabilities. This surve..