일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 논문리뷰
- programmers
- 파이토치
- pytorch
- Segmentation
- 프로그래머스
- 논문구현
- transformer
- 딥러닝
- Learning
- 인공지능
- 강화학습
- optimizer
- 논문
- reinforcement
- 파이썬
- object detection
- Computer Vision
- 알고리즘
- Ai
- ViT
- 머신러닝
- 코딩테스트
- 코드구현
- 옵티마이저
- Convolution
- Python
- cnn
- Self-supervised
- opencv
Archives
- Today
- Total
목록2025/07/16 (1)
Attention please

RL(Reinforcement Learning)은 SFT(Supervised Fine-Tuning) 이후 LLM의 수학적 추론 능력을 향상시키는 데 효과적인 것으로 입증되었습니다. 이번에는 LLM의 추론 능력을 향상시키는 다양한 강화학습 알고리즘들 중 GRPO 알고리즘을 소개하겠습니다. GRPO 알고리즘은 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models 논문에서 제안된 방법론입니다.https://arxiv.org/abs/2402.03300 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language ModelsMathematica..
딥러닝/Reinforcement Learning
2025. 7. 16. 17:07