Scikit-learn에서 제공되는 기능
#아래와 같은 수식으로 사용
from sklearn.preprocessing import StandardScaler
Scaling 종류
1. StandardScaler: 기본, 평균과 표준편차 사용
2. MinMaxScaler: 최대/최소값이 각각 1, 0이 되도록 함
3. MaxAbsScaler: 최대절대값과 0이 각각 1, 0이 되도록 함
4. RobustScaler: Median과 IQR(Interquartile Range) 사용, Outlier 영향 최소화
*IQR(Interquartile Range): 25%와 75%의 값들을 다룸
<StandardScaler>
- 평균을 제거하고 data를 단위 분산으로 조정
- 이상치가 있다면 평균과 표준편차에 영향을 미쳐 변환된 data의 확산은 매우 달라지기 때문에 이상치가 있는 경우 균형 잡힌 척도 보장 못함
<MinMaxScaler>
- 모든 Feature 값이 0-1 사이에 있도록 data를 재조정
- 이상치가 있는 경우 변환된 값이 매우 좁은 범위로 압축될 수 있음
- Outlier 유무에 민감함
<MaxAbsScaler>
- 절대값이 0-1 사이에 매핑되도록 함
- Feature 값을 -1과1 사이로 재조정
- 양수 data로만 구성된 특징 dataset에서는 MinMaxScaler와 유사하게 동작
- 큰 이상치에 민감할 수 있다
<RobustScaler>
- Outlier 영향을 최소화한 기법
- Median과 IQR(Interquartile Range)을 사용하기 때문에 StandardScaler와 비교해보면 표준화 후 동일한 값을 더 넓게 분포시킴
'둘 > [ Machine Learning ]' 카테고리의 다른 글
Data Scaling 종류 (0) | 2020.12.18 |
---|---|
Chapter 1. 한눈에 보는 ML (0) | 2020.12.07 |
Offline Learning & Online Learning (0) | 2020.12.04 |
MNIST (0) | 2020.12.03 |
Overfitting (0) | 2020.12.02 |