웹 크롤링 vs 웹 스크래핑
파이썬 공부하다... 웹 크롤링과 웹 스크래핑에 대한 차이점을 알고 싶어서 구글링해본 것을 가져왔다.
https://blog.hectodata.co.kr/crawling_vs_scraping/
비개발자가 쉽게 설명하는 웹 크롤링(Crawling)과 웹 스크래핑(Scraping)의 차이점
여러 플랫폼들은 ‘웹 크롤링(Web Crawling)’과 ‘웹 스크래핑(Scrapint)’ 기술을 활용하여 인터넷의 수많은 데이터 속에서 고객이 원하는 정보만을 골라 보여줍니다. 비슷한듯 다른 크롤링과 스크
blog.hectodata.co.kr
- 웹 크롤링(Web Crawling)이란???
웹상의 정보들을 탐색하고 수집하는 작업을 의미
ex) 구글이나 네이버에서 검색어를 검색하여 결과를 가져오게 하는 것
- 웹 스크래핑(Web Scraping)이란???
특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것을 의미
웹 스크래핑은 다음과 같이 작동하는데, 원하는 정보를 추출하기 위해 ‘스크래퍼 봇’이 특정 웹 사이트에 콘텐츠를 다운로드하기 위한 HTTP GET 요청을 보낸다. 사이트가 이에 응답하면 스크래퍼는 HTML 문서를 분석하여 특정 패턴을 지닌 데이터를 뽑아낸다. 추출된 데이터를 원하는 대로 사용할 수 있도록 데이터베이스에 저장한다.
금융 및 주식 시장의 경우, 스크래핑 기술을 활용하여 뉴스 정보를 모으기도 하고, 애널리스트들이 투자 자문을 위해 활용할 수 있는 기업 재무제표 정보를 자동으로 수집한다. 전자상거래 시장의 경우 경쟁력 확보를 위해 경쟁사 상품의 정보를 수집하고 가격 변동 이슈를 빠르게 파악하기 위해 스크래핑 기술을 활용한다.
- 웹 크롤링과 웹스크래핑 차이!!!
웹 크롤링은 웹 페이지의 링크를 타고 계속해서 탐색을 이어나가지만, 웹 스크래핑은 데이터 추출을 원하는 대상이 명확하여 특정 웹 사이트만을 추적한다는 차이점이 있다.
또한 웹 크롤링은 페이지를 모아 색인화(분류)하고 검색 결과에 내가 찾는 키워드와 연관된 링크들만 모아 볼 수 있도록 작동한다. 하지만 웹 스크래핑은 상품의 가격, 주식 정보, 뉴스 등 원하는 데이터가 명확하며, 흩어져있는 해당 데이터를 자동으로 추출하여 전달한다. 이 외에 차이점은 아래 표와 같다.