일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 알고리즘
- 옵티마이저
- 인공지능
- Segmentation
- 논문리뷰
- programmers
- 강화학습
- Learning
- 프로그래머스
- 파이토치
- 논문
- object detection
- ViT
- Python
- reinforcement
- Ai
- 딥러닝
- 파이썬
- 논문구현
- optimizer
- cnn
- transformer
- opencv
- Computer Vision
- 머신러닝
- 코딩테스트
- Vision
- pytorch
- Convolution
- 코드구현
- Today
- Total
목록Learning (5)
Attention please

RL(Reinforcement Learning)은 SFT(Supervised Fine-Tuning) 이후 LLM의 수학적 추론 능력을 향상시키는 데 효과적인 것으로 입증되었습니다. 이번에는 LLM의 추론 능력을 향상시키는 다양한 강화학습 알고리즘들 중 GRPO 알고리즘을 소개하겠습니다. GRPO 알고리즘은 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models 논문에서 제안된 방법론입니다.https://arxiv.org/abs/2402.03300 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language ModelsMathematica..

앞서 다루었던 A2C 알고리즘의 경우, sampling 후 재사용이 불가능하다는 단점이 존재했습니다. 2025.07.14 - [딥러닝/Reinforcement Learning] - [강화 학습] A2C Algorithms [강화 학습] A2C Algorithm앞서 알아보았던 Actor-Critic 알고리즘에 사용되었던 gradient는 다음과 같습니다. $$ \nabla_\theta J_\theta \simeq \sum_{t=0}^{\infty} \int_{s_t, a_t} \nabla_\theta \ln p_\theta(a_t \mid s_t) \cdot Q(s_t, a_t) \cdot p_\theta(s_t, a_t)smcho1201.tistory.com 이러한 한계점을 극복하고자 제안된 알고리즘이 ..

Q-learning앞서 다루었던 TD(Temporal Difference) 에서 target policy와 behavior policy가 동일한 경우 on-policy, 동일하지 않은 경우 off-policy라고 하였습니다. 그 중, 이번에 다룰 Q-learning은 off-policy 알고리즘입니다.2025.04.15 - [딥러닝/Reinforcement Learning] - [강화 학습] On-policy vs Off-policy [강화 학습] On-policy vs Off-policyTemporal DifferenceOn-policy 와 Off-policy에 대해 들어가기 전 TD(Temporal Difference)에 대해 다시 한번 짚고 넘어가보도록 하겠습니다. $$Q(s_t, a_t) \lef..

What is Bellman Equation?강화학습(Reinforcement Learning)을 이해할 때 가장 중요한 개념 중 하나는 벨만 방정식(Bellman Equation) 입니다. 이 방정식은 Agent가 어떤 상태(state)에서 어떤 행동(action)을 할지 결정하는 데 필요한 "가치(value)"를 수학적으로 정의해줍니다. 강화학습은 Agent가 환경과 상호작용하면서 보상을 최대화하는 방향으로 학습하는 프레임워크입니다. 이때 가장 중요한 질문은 다음과 같습니다."지금 내가 어떤 상태에 있을 때, 어떤 행동을 하는 게 가장 좋을까?" 위 질문에 답하기 위해서는, 각 상태 혹은 행동이 얼마나 "좋은지"를 수치화하여야 합니다. 이를 함수로서 정의한 것이 바로 가치 함수(Value Funct..

이번에 리뷰할 논문은 Emerging Properties in Self-Supervised Vision Transformers 입니다. https://paperswithcode.com/paper/emerging-properties-in-self-supervised-vision Papers with Code - Emerging Properties in Self-Supervised Vision Transformers #2 best model for Visual Place Recognition on Laurel Caverns (Recall@1 metric) paperswithcode.com Introduction ViT(Vision Transformer) 는 최근 CV(Computer Vision) 분야에서 ..