728x90
빅데이터 시대가 도래했다. 수 많은 데이터가 넘쳐나고 이를 분석하고 활용하는 데이터마이닝의 분야의 수요는 급증했다. 앞으로 모든 것은 데이터로 기록되고 활용될 것이다. 넘쳐나는 데이터를 잘 활용하기 위해서는 데이터 수집이 필수다.
데이터를 수집하는 방법은 크게 3가지가 있다.
첫째, 인터넷에서 엑셀 파일 등의 형태로 다운로드 하는 방법이 있다. 이는 단순히 데이터를 분석하기 위한 일회성 용도로 사용하기에는 나쁘지 않다. 하지만 지속적으로 데이터가 업데이트 되어야하고 그에 따라 분석이 연동되어 움직이는 시스템에서는 적합하지 않다.
둘째, 웹 크롤링(Crawling) 방법이 있다. 인터넷을 돌아다니며 필요한 데이터를 일정한 형식으로 크롤링하여 보기 좋게 저장하면 아주 유용하게 쓰인다. 자동화하기에 딱 좋은 대상이다.
셋째, API(Application Programming Interface) 서비스를 이용하는 방법이 있다. 많은 기관들이 API를 무료로 제공하고 있어 간단한 사용법만 배우면 데이터 수집을 아주 편리하게 할 수 있다. 유로 API서비스를 제공하는 업체들도 있다.
데이터를 수집하여 자체 데이터베이스를 구축하면 다양한 분석을 빠르게 할 수 있다.
728x90
'Data Science > Data Collection' 카테고리의 다른 글
[03. API] 001. Pandas Datareader (0) | 2020.02.12 |
---|---|
[02. 웹크롤링] 004. 38커뮤니케이션 – IPO 데이터 (0) | 2020.01.12 |
[02. 웹크롤링] 003. 야후 파이낸스 프랑스 – 주가 데이터 (0) | 2020.01.11 |
[02. 웹크롤링] 002. 야후 파이낸스 일본 – 주가 데이터 (0) | 2020.01.11 |
[02. 웹크롤링] 001. 네이버 – 주가 데이터 (0) | 2020.01.05 |