본문 바로가기
2/[ Machine Learning ]

Data Scaling 종류

by Kieran_Han 2020. 12. 18.

1. StandardScaler

각 feature의 평균을 0, 분산을 1로 변경한다. 모든 feature들이 같은 scale을 갖게 된다.

 

2. RobustScaler

모든 feature들이 같은 크기를 갖는 다는 점에서 StandardScaler와 비슷하지만, 평균과 분산 대신 median과 quartile을 사용한다.

RobustScaler는 이상치에 영향을 받지 않는다.

 

3. MinMaxScaler

모든 feature가 0과 1사이에 위치하게 만든다.

데이터가 2차원 셋일 경우, 모든 데이터는 x축의 0과 1사이에, y축의 0과 1사이에 위치하게 된다.

 

4. Normarlizer

StandardScaler, RobustScaler, MinMaxScaler가 각 columns의 통계치를 이용한다면 Normalizer는 row마다 각각 정규화된다.

Normalizer는 유클리드 거리가 1이 되도록 데이터를 조정한다.

(유클리드 거리는 두 점 사이의 거리를 계산할 때 쓰는 방법)

Normarlize를 하기 되면 Spherical contour(구형 윤곽)을 갖게 되며, 학습이 빠르고 과대적합 확률을 낮춘다.

' > [ Machine Learning ]' 카테고리의 다른 글

Padding  (0) 2020.12.21
Scaler의 fit(), transform(), fit_transform()  (0) 2020.12.18
Chapter 1. 한눈에 보는 ML  (0) 2020.12.07
Scaling 종류  (0) 2020.12.06
Offline Learning & Online Learning  (0) 2020.12.04