본문 바로가기
Daily/김인턴의 하루

크롤링 VS 스크래핑

by HANNI하니 2021. 8. 10.

난 스크래핑 단어도 낯선데 갑자기 둘의 차이를 물어보신 대리님 덕분에,, 포스팅합니다 ㅎㅎ

 

 

크롤링(crawling)

크롤링이란 단어는 웹 크롤러(crawler)라는 단어에서 시작한 말.

크롤러 = 조작적, 자동화된 방법으로 월드와이드 웹을 탐색하는 컴퓨터 프로그램

크롤링 = 크롤러가 하는 작업

 

웹 페이지의 가장 깊은 곳으로 크롤러(또는 봇)를 개발하는 대규모 데이터 세트를 처리하는 것.

웹 크롤러(자동화 봇)가 일정 규칙으로 웹페이지를 브라우징 하는 것

여러 인터넷 사이트의 페이지(문서, html 등)를 수집해서 분류.

 

 

스크래핑(scraping)

모든 소스(예. 웹 사이트 상)에서 원하는 정보를 검색, 추출하는 기술

HTTP를 통해 웹 사이트의 내용을 긁어다 원하는 형태로 가공하는 것.

웹 사이트의 데이터를 수집하는 모든 작업.

크롤링도 일종의 스크래핑 기술이라고 할 수 있다.

 

 

 

=> 웹 크롤링은 그냥 돌아만 다니는 거고 스크래핑은 긁어 오는 것이다.

=> 허락된 정보인지 유무(크롤링O / 스크래핑X)

 

 

+파싱(parsing)

어떤 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공하는 것

일련의 문자열을 의미있는 토큰(token)으로 분해하고, 이들로 이루어진 파스 트리(parse tree)를 만드는 과정

 

 

https://www.promptcloud.com/blog/data-scraping-vs-data-crawling/

 

Data Crawling vs Data Scraping - The Key Differences | PromptCloud

While data crawling vs data scraping seem same, there are major differences. PromptCloud explains the meaning and basics of both. Read more.

www.promptcloud.com

'Daily > 김인턴의 하루' 카테고리의 다른 글

업무계획서 작성하기  (0) 2021.08.10
ESG 경영  (0) 2021.08.09
KCI급 첫 논문 작성 완료!  (0) 2020.12.21
국외/국내학술지 논문 레벨  (0) 2020.12.17
3D face recognition  (4) 2020.12.16

댓글