본문 바로가기

Data Science/Data Preprocessing

[01. 데이터] 001. 데이터 전처리

728x90

데이터 분석에 가장 많은 시간을 투자하는 부분이 바로 데이터 전처리이다. 즉, 매우 중요한 작업이다. garbage in, garbage out이란 말처럼 쓰레기를 넣으면 쓰레기가 나온다. 전처리 공정을 전체적으로 이해하려면 프로그래밍 언어에 관한 이해뿐만 아니라 통계학이나 머신러닝에 관한 기반 지식이 필요하다.

 

실제로 모델링을 하면서 모델의 성능을 높이기 위해 데이터 전처리를 반복적으로 수행한다. 더 좋은 품질의 데이터를 만들기 위해 노력해야 할 것이다.

 

데이터 전처리 과정의 첫 번째는 데이터의 품질을 평가하는 것이다. 결측치 데이터는 없는 지, 이상치 데이터는 없는 지, 중복된 데이터는 어떻게 처리할 것인지 등을 결정한다.

 

그리고 두 번째로는 데이터를 의미 있게 가공하여 보다 설명력이 높은 데이터를 만드는 작업이다.

 

마지막으로 잘 처리된 데이터의 샘플링을 통해 모델에 투입하고 평가하기 위한 훈련, 검증, 테스트 셋을 만드는 것이다.

 

이러한 일련의 과정을 거친 후 다양한 모델을 적용하여 설명력이 높은 모델을 선택하는 것이 모델링의 과정이다. 세상엔 수많은 데이터가 있고 이를 가공하고 분석하는 방법 또한 수만가지이다.

 

모델링 또한 하나의 모델이 아닌 여러 모델을 사용하기도 하고 모델링을 통해 나온 아웃풋 값을 다른 모델의 인풋 값으로 사용하기도 하는 등 모델링 방법 또한 수만가지이다.

 

이렇게 데이터 속에서 의미 있는 결과를 뽑아내는 방법을 데이터 마이닝이라고 한다.

 

[그림 1.1] 데이터 전처리의 중요성

728x90