머신러닝 모델 학습의 데이터 전처리 기법

9월 05, 2024

머신러닝에서 데이터 전처리는 모델의 성능을 극대화하기 위한 필수적인 단계입니다. 데이터 전처리는 원본 데이터를 정제하고, 변환하며, 학습 가능한 형식으로 준비하는 과정입니다. 이 글에서는 머신러닝 모델 학습에서 자주 사용되는 주요 데이터 전처리 기법을 살펴보고, 각 기법이 모델의 성능에 어떻게 영향을 미치는지 설명하겠습니다.

1. 결측값 처리(Missing Value Handling)

결측값은 데이터셋에서 중요한 정보가 누락된 상태를 나타냅니다. 결측값을 적절히 처리하지 않으면 모델의 성능이 저하될 수 있으며, 심각한 경우 모델이 제대로 동작하지 않을 수 있습니다.

주요 처리 방법:

삭제(Deletion): 결측값이 포함된 행 또는 열을 삭제하는 방법입니다. 결측값의 비율이 매우 낮을 때 효과적이지만, 데이터 손실이 발생할 수 있습니다.

df.dropna()  # 결측값이 있는 행 삭제
df.dropna(axis=1)  # 결측값이 있는 열 삭제

대체(Imputation): 결측값을 평균, 중앙값, 최빈값 등으로 대체하거나, K-최근접 이웃(K-NN)이나 회귀 모델을 사용하여 예측할 수 있습니다.

df.fillna(df.mean())  # 평균값으로 대체
df.fillna(method='ffill')  # 직전 값으로 대체

예측(Imputation using Models): 더 복잡한 방법으로, 머신러닝 모델을 사용해 결측값을 예측하여 대체할 수 있습니다. 이 방법은 데이터의 패턴을 유지하면서 결측값을 처리하는 데 유리합니다.

2. 데이터 정규화(Normalization)와 표준화(Standardization)

특성(feature)의 스케일이 다른 경우, 데이터 정규화 또는 표준화를 통해 모델 학습을 최적화할 수 있습니다. 이는 특히 거리 기반 알고리즘(예: K-NN, SVM)에서 중요합니다.

정규화(Normalization): 모든 특성을 0과 1 사이의 값으로 변환합니다. 주로 최소-최대 정규화(Min-Max Scaling)가 사용됩니다.

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df_scaled = scaler.fit_transform(df)

표준화(Standardization): 특성의 값을 평균 0, 표준편차 1로 변환합니다. 데이터가 정규 분포를 따를 때 유리합니다.

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df_standardized = scaler.fit_transform(df)

3. 범주형 데이터 인코딩(Categorical Data Encoding)

범주형 데이터는 문자열 또는 범주로 표현된 데이터를 말합니다. 머신러닝 모델이 이 데이터를 처리할 수 있도록 수치형으로 변환해야 합니다.

레이블 인코딩(Label Encoding): 범주형 데이터를 고유한 정수 값으로 변환합니다. 이 방법은 범주 간 순서가 있을 때 유용합니다.

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['category'] = le.fit_transform(df['category'])

원-핫 인코딩(One-Hot Encoding): 범주형 데이터를 이진 벡터로 변환하여, 순서가 없는 범주형 데이터에 적합합니다.

from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(sparse=False)
df_encoded = ohe.fit_transform(df[['category']])

이진 인코딩(Binary Encoding): 원-핫 인코딩과 레이블 인코딩의 장점을 결합하여, 고차원 원-핫 인코딩의 문제를 완화할 수 있습니다. 범주의 수가 많을 때 사용됩니다.

4. 특성 선택(Feature Selection)

특성 선택은 모델의 성능을 높이고 과적합(overfitting)을 방지하기 위해, 중요한 특성만을 선택하여 사용하는 기법입니다. 불필요한 특성은 모델의 복잡성을 증가시키고 학습 속도를 저하시킬 수 있습니다.

필터 방법(Filter Methods): 통계적 방법을 사용해 각 특성을 독립적으로 평가합니다. 예를 들어, 분산이 낮은 특성을 제거하거나 상관계수가 높은 특성을 선택할 수 있습니다.

from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold(threshold=0.1)
df_reduced = selector.fit_transform(df)

랩퍼 방법(Wrapper Methods): 특성의 부분 집합을 선택하여, 모델의 성능을 반복적으로 평가합니다. 예를 들어, 전진 선택(Forward Selection)이나 후진 제거(Backward Elimination)를 사용할 수 있습니다.

from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
selector = RFE(model, n_features_to_select=5)
df_reduced = selector.fit_transform(df, y)

임베디드 방법(Embedded Methods): 모델 학습 과정에서 특성 선택이 동시에 이루어지는 방법입니다. 예를 들어, L1 규제를 사용하는 라소(Lasso) 회귀가 대표적입니다.

from sklearn.linear_model import Lasso
model = Lasso(alpha=0.01)
model.fit(df, y)
important_features = model.coef_ != 0
df_reduced = df[:, important_features]

5. 특성 엔지니어링(Feature Engineering)

특성 엔지니어링은 원본 데이터를 기반으로 새로운 유용한 특성을 생성하는 과정입니다. 이 과정은 도메인 지식을 바탕으로 하며, 모델의 성능을 크게 향상시킬 수 있습니다.

다항 특성 생성(Polynomial Features): 기존 특성 간의 상호작용을 고려해 새로운 다항 특성을 생성합니다. 이는 비선형 관계를 캡처하는 데 유용합니다.

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2)
df_poly = poly.fit_transform(df)

로그 변환(Log Transformation): 데이터의 분포를 정규 분포에 가깝게 만들기 위해 로그 변환을 적용합니다. 이는 분포가 치우친 데이터를 처리하는 데 효과적입니다.

import numpy as np
df['feature'] = np.log1p(df['feature'])

정규화 및 스케일링: 비선형 관계를 모델링할 때, 특성의 스케일을 조정하여 학습 속도를 높이고 성능을 향상시킬 수 있습니다.

6. 데이터 증강(Data Augmentation)

데이터 증강은 데이터셋의 크기를 늘리기 위해 새로운 데이터를 생성하는 기법입니다. 특히, 이미지나 텍스트 데이터를 다룰 때 자주 사용됩니다.

이미지 증강(Image Augmentation): 이미지 회전, 크기 조정, 플립 등을 통해 새로운 이미지를 생성하여 모델의 일반화 성능을 높입니다.

from keras.preprocessing.image import ImageDataGenerator
datagen = ImageDataGenerator(rotation_range=20, horizontal_flip=True)
datagen.fit(X_train)

텍스트 증강(Text Augmentation): 텍스트 데이터를 변형하거나, 동의어 교체, 문장 순서 변경 등을 통해 텍스트 데이터를 증강할 수 있습니다.

# Example of simple text augmentation using synonym replacement
import nlpaug.augmenter.word as naw
aug = naw.SynonymAug(aug_src='wordnet')
augmented_text = aug.augment("This is a sample text")

결론

데이터 전처리는 머신러닝 모델의 성능을 극대화하는 데 필수적인 단계입니다. 결측값 처리, 데이터 정규화, 범주형 데이터 인코딩, 특성 선택, 특성 엔지니어링, 데이터 증강과 같은 다양한 전처리 기법을 적절히 활용하면, 모델의 학습 속도와 예측 정확도를 크게 향상시킬 수 있습니다. 효과적인 데이터 전처리 전략을 수립하고 적용함으로써, 모델이 데이터의 패턴을 더 잘 이해하고, 일반화 성능을 높일 수 있습니다. 데이터 전처리의 중요성을 이해하고, 다양한 기법을 학습하여 프로젝트에 맞게 적용하는 것이 성공적인 머신러닝 모델 개발의 핵심입니다.

인포아카이브

Python의 GIL(Global Interpreter Lock)과 멀티스레딩의 한계