일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 파이토치
- 논문리뷰
- optimizer
- cnn
- Paper Review
- Ai
- Segmentation
- 코딩테스트
- Computer Vision
- transformer
- 딥러닝
- 논문
- 인공지능
- 파이썬
- 논문 리뷰
- programmers
- 프로그래머스
- ViT
- 알고리즘
- Convolution
- Python
- 논문구현
- pytorch
- 코드구현
- opencv
- Self-supervised
- Semantic Segmentation
- 옵티마이저
- 머신러닝
- object detection
- Today
- Total
목록머신러닝 (50)
Attention please
Clustering은 Data mining 분야에서 데이터들 간의 유사성을 기반으로 데이터들을 그룹으로 분류하는 기법이다. 머신러닝의 학습은 크게 두가지로 구분되는데 지도 학습(supervised learning) 과 비지도 학습(unsupervised learning) 이다. Clustering 기법은 비지도 학습에 속하는데 비지도 학습은 따로 데이터에 대한 label이 주어지지 않는다. 대신, 데이터간의 유사도를 기반으로 데이터를 그룹화를 시킬 수 있는데 이를 군집화(cluster)라고 한다. 즉, 데이터 간의 유사성이 높은 것들을 군집화하는 것을 clustering이라고 한다. 위 그림을 보면 데이터들은 children, Adults 라벨값이 존재하고, 같은 라벨끼리 묶일 수 있도록 구분하는 것이 ..
데이터를 전처리 하는 과정에서 결측치가 존재한다면 반드시 채워주어야 한다. 이런 경우 결측치를 채우기 위해 보통 fillna를 사용하여 채우는 경우가 대부분이다. 하지만 간단하게 값을 채우는 용도로 사용할 수 있는 SimpleImputer 함수가 존재한다. fillna에 비해 할 수 있는 다양성은 줄어들지만 보다 간단하게 결측치를 채울 수 있기 때문에 단순 작업을 할 때 사용하기 적합해 보인다. 먼저 SimpleImputer 함수를 사용하기 위해 모듈을 import 해주자. import pandas as pd from sklearn.impute import SimpleImputer 이번에는 간단하게 최빈값으로 결측치를 채우는 작업을 진행하였다. imputer = SimpleImputer(strategy=..
데이터에는 크게 정형 데이터와 비정형 데이터로 분류된다. 정형 데이터는 보통 머신러닝, 비정형 데이터는 딥러닝으로 처리하는 경우가 대부분인데, 이번에 다룰 데이터는 정형 데이터이다. 비정형 데이터의 경우 딥러닝 즉, 인공신경망까지의 과정에 인간의 노력이 크게 들어가지 않는다. 하지만 정형 데이터의 경우 머신러닝을 적용하기 전 데이터에 대해 충분히 이해를 하여야 하며, 전처리하는 과정이 필요하다. 이와 같이 데이터를 분석하고, 탐색하는 것을 EDA (Exploratory Data Analysis) 라고 하며, 탐색적 데이터 분석이라고도 한다. EDA의 과정은 크게 데이터에 대해 이해를 하고, 관련 도메인 자료 조사를 통해 미리 가설 설정을 하며 시작된다. 가설에 필요한 여러 feature로 필터링을 한 후..
이번에 소개할 tool은 음성이나 영상 파일을 text로 변환해주는 daglo입니다. https://daglo.ai/dashboard daglo 다글로(daglo)는 음성 녹음을 텍스트로 변환해주는 서비스입니다. 긴 음성파일도 인공지능 기술로 쉽고 빠르게 변환할 수 있습니다. daglo.ai 모델을 학습시키기 위해서는 정말 많고 또 다양한 데이터들이 필요하다. 하지만 의미있는 데이터를 찾는 것은 쉬운 일이 아니다. 이번에 자연어 관련하여 연구를 진행하던 도중 유튜브 영상의 내용을 데이터로 사용해야할 일이 생겼다. 영상의 내용을 text로 변환시키기 위해서 보다 접근성이 좋고 정확도 역시 좋은 tool이 필요했다. 그렇게 찾던 와중 발견한 것이 daglo였다. daglo를 접하고 가장 마음에 들었던 것은 ..
https://school.programmers.co.kr/learn/courses/30/lessons/42583 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 문제 설명 트럭 여러 대가 강을 가로지르는 일차선 다리를 정해진 순으로 건너려 합니다. 모든 트럭이 다리를 건너려면 최소 몇 초가 걸리는지 알아내야 합니다. 다리에는 트럭이 최대 bridge_length대 올라갈 수 있으며, 다리는 weight 이하까지의 무게를 견딜 수 있습니다. 단, 다리에 완전히 오르지 않은 트럭의 무게는 무시합니다. 예를 들어, 트럭 2대가 올라갈 수 있고 무게를 10kg까..
What Experiment? KLUE 데이터셋은 Korean Language Understanding Evaluation 의 약자로 한국어 모델 성능을 평가하기 위한 벤치마크 데이터셋이다. KLUE 데이터셋에는 총 8가지의 task가 존재하는데 그 중에서도 이번에 활용할 task는 TC(Topic Classification) 이다. 이번 프로젝트의 주제는 위에서 설명한 KLUE 데이터를 사용하여 북마크된 기사들의 제목들을 각 topic에 맞게 분류하는 것이다. 예를 들어 "[삼성화재배 AI와 함께하는 바둑 해설] 조용히 완성된 철갑 공격군 | 중앙일보" 라는 기사 제목을 보고 "IT과학" 으로 분류한다. 구글에는 원하는 페이지를 북마크할 수 있는 기능이 존재한다. 이 북마크에는 다양한 기능이 존재하는데..