SNS 데이터 수집
SNS 데이터 수집
프로젝트 개요
각 SNS채널에서 자동차 용품, 자동차 인플루언서, 댓글 등 차량과 관련된 소비자 데이터를 취득하여 유의미한 인사이트를 도출하고자 데이터 수집을 기획 하였습니다.
프로젝트 구성
담당역할
Data Pipeline 설계
각 채널에서 데이터를 수집하여 DB에 적재하는 데이터 파이프라인을 설계하였습니다. AWS 서버에 bs4와 셀레니움을 활용하여 데이터 수집 배치를 작성하고 Pandas 라이브러리를 통해 데이터를 처리 및 적재합니다. 해당 과정을 Linux Crontab을 사용하여 특정 시간에 동작하게 스케줄링 하도록 설계 하였습니다.
크롤링 배치 개발 수집 방안 변경
배치 개발을 진행 중 서버 비용, 개발 기간 등의 이유로 수집 방안을 변경하였습니다. 기존 배치 스케줄링기반에 데이터 수집, 적재 방식이 아닌 스크래핑 방식의 데이터 수집, 파일 저장으로 변경되었습니다.
프로젝트 회고
해당 프로젝트는 BMW Garage Startup Program PoC 프로젝트로 인해 사실상 끝맺음 없이 끝났다고 무방한 프로젝트입니다. 각 SNS채널을 통해 수집 된 데이터를 이용하여 유의미한 인사이트가 나오길 바랬던 아쉬운 프로젝트였지만 bs4 라이브러리를 사용하면서 html 구조 파악에 도움이 많이 되었습니다. Pandas 및 Dataframe 보다 다양한 데이터 처리를 경험 할 수 있었습니다.
This post is licensed under CC BY 4.0 by the author.