본문 바로가기

728x90

Data Science/Data Collection

[02. 웹크롤링] 004. 38커뮤니케이션 – IPO 데이터 38커뮤니케이션은 장외주식, IPO 등 다양한 정보를 제공한다. 이 사이트를 통해서 IPO 예정인 기업들을 크롤링해보도록 하자. 비상장주식,장외주식시장 NO.1 38커뮤니케이션 종목명 청구일 자본금(백만) 매출액(백만) 순이익(백만) 심사청구가(원) 위더스제약 12/19 1,550 51,732 8,661 에이비온 12/18 6,917 800 -7,789 캠시스글로벌 12/18 10,001 0 0 엘에스이브이코리아 12/16 18,313 56,055 2,296 신도기연 12/12 3,361 48,854 3,189 종목명 승인일 자본금(백만) 순이익(백만) 주요제품 센코어테크 01/09 2,919 11,029 철근선조립기둥, 강구조 www.38.co.kr IPO/공모 탭을 클릭해보면 승인종목, IR일정, 수.. 더보기
[02. 웹크롤링] 003. 야후 파이낸스 프랑스 – 주가 데이터 야후 파이낸스 프랑스(https://fr.finance.yahoo.com/) 주가 데이터를 크롤링하는 것은 조금 다르다. 왜냐하면 주가 데이터를 조회 후 스크롤하면 데이터가 자동으로 계속 보이는 방식이기 때문이다. 원하는 데이터 기간을 조회 후 스크롤하지 않으면 모든 데이터가 나오지 않는다. 이 문제를 해결하기 위해서는 selenium 라이브러리를 사용해야 한다. pip install selenium 그리고 크롬 드라이브를 다운로드 한다. Downloads - ChromeDriver - WebDriver for Chrome WebDriver for Chrome sites.google.com 자신의 크롬에 맞는 버전을 다운받으면 된다. 크롬에서 도움말 – Chrome 정보에 버전이 나와있다. 크롤링 대상이.. 더보기
[02. 웹크롤링] 002. 야후 파이낸스 일본 – 주가 데이터 글로벌 시대에 해외투자가 늘어남에 따라 해외주식에 대한 데이터 가공도 중요한 시대이다. 야후 파이낸스 재팬에서 일본 주식 주가 데이터를 크롤링 해보자. Yahoo!ファイナンス - 株価やニュース、企業情報などを配信する投資・マネーの総合サイト 【ご注意】 市場を特定したい場合は、銘柄コードに続けて拡張子(例:4689.t)をつけてください。各市場の拡張子、詳細についてはこちらをご覧ください。 チャートについては、株式分割などがあった場合は分割日以前の取引値についてもさかのぼって修正を行っております。 前日比については、権利落ちなどの修正を行っておりません。 取引値は、東証、福証、札証はリアルタイムで、他市場は最低20分遅れで更新しています。全市場(東証、福証、札証も含む)の出来高・売買代金に関しては、最低20分遅れで表示しています。株式分割があっ finance.y.. 더보기
[02. 웹크롤링] 001. 네이버 – 주가 데이터 네이버는 국내 최대 포털 사이트이다. 주식 및 부동산 등 여러가지 정보를 제공해주고 있다. 네이버의 주가 데이터를 웹크롤링하는 방법에 대해 알아보자. 네이버에서 삼성전자 주가 데이터를 한 번 보자 네이버 금융 국내 해외 증시 지수, 시장지표, 펀드, 뉴스, 증권사 리서치 등 제공 finance.naver.com 스크롤을 내리면 일별시세란 부분이 보인다. 이 부분을 바로 우리가 크롤링할 것이다. 일별시세의 주소는 다음 주소에서 더욱 깔끔하게 볼 수 있다. 네이버 금융 finance.naver.com 구조를 살펴보면 10개의 데이터씩 일별로 보여준다. 제공하는 데이터는 날짜, 종가, 전일비, 시가, 고가, 저가, 거래량이다. 페이지에서 마우스 오른쪽 버튼을 눌러 소스 보기로 들어가면 다음과 같이 웹의 언어로.. 더보기
[01. 데이터] 001. 데이터 수집 빅데이터 시대가 도래했다. 수 많은 데이터가 넘쳐나고 이를 분석하고 활용하는 데이터마이닝의 분야의 수요는 급증했다. 앞으로 모든 것은 데이터로 기록되고 활용될 것이다. 넘쳐나는 데이터를 잘 활용하기 위해서는 데이터 수집이 필수다. 데이터를 수집하는 방법은 크게 3가지가 있다. 첫째, 인터넷에서 엑셀 파일 등의 형태로 다운로드 하는 방법이 있다. 이는 단순히 데이터를 분석하기 위한 일회성 용도로 사용하기에는 나쁘지 않다. 하지만 지속적으로 데이터가 업데이트 되어야하고 그에 따라 분석이 연동되어 움직이는 시스템에서는 적합하지 않다. 둘째, 웹 크롤링(Crawling) 방법이 있다. 인터넷을 돌아다니며 필요한 데이터를 일정한 형식으로 크롤링하여 보기 좋게 저장하면 아주 유용하게 쓰인다. 자동화하기에 딱 좋은 .. 더보기
728x90