본문 바로가기

728x90

Data Science/Data Preprocessing

[02. Data Quality Assessment] 002. Outlier values 아웃라이어란 평균치에서 크게 벗어나서 다른 대상들과 확연히 구분 되는 값이다. 이는 정확한 모델링을 위해 처리를 해야 한다. 삭제를 하거나 Winsorizing 방법 등이 있다. 1) 삭제 값을 삭제를 하기 위해선 기준이 필요하다. 예를 들면 평균에서 2시그마를 벗어나는 값을 아웃라이어로 판단하고 삭제하는 것이다. import FinanceDataReader as fdr if __name__ == '__main__': aapl = fdr.DataReader('AAPL', '2020-10-01') aapl = aapl[['Change']] print(aapl[(aapl > (aapl[['Change']].mean() - 2 * aapl[['Change']].std())) & (aapl < (aapl[['C.. 더보기
[02. Data Quality Assessment] 001. Missing Values 모든 데이터가 다 있으면 좋겠지만 데이터를 수집하다보면 결측값들이 존재한다. 데이터가 많다면 비어있는 데이터를 삭제할 수 있다. 데이터셋의 크기가 작다면 결측값들을 평균, 최빈값 또는 중간값 등으로 채워 넣는다. 마지막으로 모델링을 통해 예측되는 값을 넣을 수도 있는데 이는 잘 사용하지 않는다. 정확하게 데이터간의 관계를 파악하고 있어야 가능하고, 이러한 예측값이 정확하다는 보장도 없다. 애플과 삼성전자의 주가데이터를 통해 결측값을 삭제 또는 평균 등의 값으로 채워 넣는 방법에 대해 알아보자. 우선 삼성전자와 애플의 주가를 불러오자. import FinanceDataReader as fdr if __name__ == '__main__': aapl = fdr.DataReader('AAPL', '2020-0.. 더보기
[01. 데이터] 001. 데이터 전처리 데이터 분석에 가장 많은 시간을 투자하는 부분이 바로 데이터 전처리이다. 즉, 매우 중요한 작업이다. garbage in, garbage out이란 말처럼 쓰레기를 넣으면 쓰레기가 나온다. 전처리 공정을 전체적으로 이해하려면 프로그래밍 언어에 관한 이해뿐만 아니라 통계학이나 머신러닝에 관한 기반 지식이 필요하다. 실제로 모델링을 하면서 모델의 성능을 높이기 위해 데이터 전처리를 반복적으로 수행한다. 더 좋은 품질의 데이터를 만들기 위해 노력해야 할 것이다. 데이터 전처리 과정의 첫 번째는 데이터의 품질을 평가하는 것이다. 결측치 데이터는 없는 지, 이상치 데이터는 없는 지, 중복된 데이터는 어떻게 처리할 것인지 등을 결정한다. 그리고 두 번째로는 데이터를 의미 있게 가공하여 보다 설명력이 높은 데이터를 .. 더보기
728x90