본문 바로가기
둘/[ Machine Learning ]

Scaling 종류

by Kieran_Han 2020. 12. 6.

Scikit-learn에서 제공되는 기능

 

#아래와 같은 수식으로 사용

from sklearn.preprocessing import StandardScaler

 

Scaling 종류

1. StandardScaler: 기본, 평균과 표준편차 사용

2. MinMaxScaler: 최대/최소값이 각각 1, 0이 되도록 함

3. MaxAbsScaler: 최대절대값과 0이 각각 1, 0이 되도록 함

4. RobustScaler: Median과 IQR(Interquartile Range) 사용, Outlier 영향 최소화

*IQR(Interquartile Range): 25%와 75%의 값들을 다룸

 

<StandardScaler>

 - 평균을 제거하고 data를 단위 분산으로 조정

 - 이상치가 있다면 평균과 표준편차에 영향을 미쳐 변환된 data의 확산은 매우 달라지기 때문에 이상치가 있는 경우 균형 잡힌 척도 보장 못함

 

<MinMaxScaler>

 - 모든 Feature 값이 0-1 사이에 있도록 data를 재조정

 - 이상치가 있는 경우 변환된 값이 매우 좁은 범위로 압축될 수 있음

 - Outlier 유무에 민감함

 

<MaxAbsScaler>

 - 절대값이 0-1 사이에 매핑되도록 함

 - Feature 값을 -1과1 사이로 재조정

 - 양수 data로만 구성된 특징 dataset에서는 MinMaxScaler와 유사하게 동작

 - 큰 이상치에 민감할 수 있다

 

<RobustScaler>

 - Outlier 영향을 최소화한 기법

 - Median과 IQR(Interquartile Range)을 사용하기 때문에 StandardScaler와 비교해보면 표준화 후 동일한 값을 더 넓게 분포시킴

' > [ Machine Learning ]' 카테고리의 다른 글

Data Scaling 종류  (0) 2020.12.18
Chapter 1. 한눈에 보는 ML  (0) 2020.12.07
Offline Learning & Online Learning  (0) 2020.12.04
MNIST  (0) 2020.12.03
Overfitting  (0) 2020.12.02