일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 프로그래머스
- transformer
- Python
- cnn
- 인공지능
- 머신러닝
- 옵티마이저
- ViT
- Self-supervised
- 코딩테스트
- 파이토치
- Semantic Segmentation
- 딥러닝
- 파이썬
- 코드구현
- Paper Review
- Convolution
- Computer Vision
- optimizer
- 논문구현
- 알고리즘
- Ai
- opencv
- 논문리뷰
- pytorch
- 논문 리뷰
- programmers
- Segmentation
- object detection
- 논문
- Today
- Total
목록전처리 (3)
Attention please
2023.02.17 - [머신러닝] - 클러스터링 ; 데이터 살펴보기(EDA) - (1) 클러스터링 ; 데이터 살펴보기(EDA) - (1) Clustering은 Data mining 분야에서 데이터들 간의 유사성을 기반으로 데이터들을 그룹으로 분류하는 기법이다. 머신러닝의 학습은 크게 두가지로 구분되는데 지도 학습(supervised learning) 과 비지도 학 smcho1201.tistory.com 지난 글에서 데이터를 가져온 후 각 변수들의 분포를 살펴보며, 데이터의 정보를 수집하였다. 이번 글에서는 수집한 데이터의 정보들을 근거하여 보다 학습이 잘 되도록 데이터 전처리(preprocessing) 작업을 해주어야 한다. 특히나 Clustering의 경우 데이터의 정보만을 가지고 유사도를 구하고 군..
데이터에는 크게 정형 데이터와 비정형 데이터로 분류된다. 정형 데이터는 보통 머신러닝, 비정형 데이터는 딥러닝으로 처리하는 경우가 대부분인데, 이번에 다룰 데이터는 정형 데이터이다. 비정형 데이터의 경우 딥러닝 즉, 인공신경망까지의 과정에 인간의 노력이 크게 들어가지 않는다. 하지만 정형 데이터의 경우 머신러닝을 적용하기 전 데이터에 대해 충분히 이해를 하여야 하며, 전처리하는 과정이 필요하다. 이와 같이 데이터를 분석하고, 탐색하는 것을 EDA (Exploratory Data Analysis) 라고 하며, 탐색적 데이터 분석이라고도 한다. EDA의 과정은 크게 데이터에 대해 이해를 하고, 관련 도메인 자료 조사를 통해 미리 가설 설정을 하며 시작된다. 가설에 필요한 여러 feature로 필터링을 한 후..
OpenCV를 이용하여 읽어온 이미지를 다양하게 전처리 할 수 있다. 다음은 원본 이미지이다. 크기 조정 이미지 size를 조정하는데 총 2가지 방법이 존재한다. 직접 size 설정 비율로 size 조절 먼저 고정된 size인 (400, 500)로 resize를 하였다. import cv2 img = cv2.imread('cat_img.jpg') dst = cv2.resize(img, (400, 500)) cv2.imshow('img', img) cv2.imshow('resize', dst) cv2.waitKey(0) cv2.destroyAllWindows() 다음으로 설정한 비율에 맞게 resize를 하였다. dst = cv2.resize(img, None, fx=0.5, fy=0.5) 위와 같이 이미..