일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 프로그래머스
- 코딩테스트
- 논문
- Ai
- 옵티마이저
- Convolution
- 논문 리뷰
- 파이토치
- Python
- 머신러닝
- 딥러닝
- 논문구현
- optimizer
- 논문리뷰
- 파이썬
- Segmentation
- ViT
- pytorch
- Semantic Segmentation
- 코드구현
- opencv
- cnn
- transformer
- 인공지능
- 알고리즘
- Computer Vision
- Self-supervised
- object detection
- programmers
- Paper Review
Archives
- Today
- Total
Attention please
sklearn의 Simplelmputer으로 결측치 채우기 본문
데이터를 전처리 하는 과정에서 결측치가 존재한다면 반드시 채워주어야 한다.
이런 경우 결측치를 채우기 위해 보통 fillna를 사용하여 채우는 경우가 대부분이다. 하지만 간단하게 값을 채우는 용도로 사용할 수 있는 SimpleImputer 함수가 존재한다.
fillna에 비해 할 수 있는 다양성은 줄어들지만 보다 간단하게 결측치를 채울 수 있기 때문에 단순 작업을 할 때 사용하기 적합해 보인다.
먼저 SimpleImputer 함수를 사용하기 위해 모듈을 import 해주자.
import pandas as pd
from sklearn.impute import SimpleImputer
이번에는 간단하게 최빈값으로 결측치를 채우는 작업을 진행하였다.
imputer = SimpleImputer(strategy='most_frequent')
df = pd.DataFrame(imputer.fit_transform(df))
위와 같이 두줄 만으로 간단하게 결측치를 채웠다.
SimpleImputer 객체를 생성한 후 fit_transform 메서드를 사용하여 새로운 데이터프레임을 생성하였다.
Parameter
SimpleImputer 함수에는 총 6가지의 파라미터가 존재한다.
- missing_values : 빈값으로 인식하게 할 값을 정한다. (default : np.nan 값들을 채운다.)
- strategy : "median" - 중앙값, "most_frequent" - 최빈값, "constant" - 지정 값 으로 사용할 수 있다. (default : "mean" - 산술평균값)
- fill_value : strategy가 "constant"인 경우 채울 값을 결정할 수 있다.
- verbose : 0 - 출력 X / 1 - 자세히 출력, 2 - 간단히 출력 (default : 0)
- copy : True - 복사본을 만들어서 결과 도출 / False - 원래의 데이터프레임에 결과 도출 (default : True)
- add_indicator : 원래 결측치였는지를 구분하는 추가 컬럼을 추가할지에 대한 여부 (default : False)
'머신러닝' 카테고리의 다른 글
클러스터링 ; 데이터 전처리 - (2) (0) | 2023.02.17 |
---|---|
클러스터링 ; 데이터 살펴보기(EDA) - (1) (0) | 2023.02.17 |
타이타닉 - EDA (2) | 2023.01.27 |
Comments