난 스크래핑 단어도 낯선데 갑자기 둘의 차이를 물어보신 대리님 덕분에,, 포스팅합니다 ㅎㅎ
크롤링(crawling)
크롤링이란 단어는 웹 크롤러(crawler)라는 단어에서 시작한 말.
크롤러 = 조작적, 자동화된 방법으로 월드와이드 웹을 탐색하는 컴퓨터 프로그램
크롤링 = 크롤러가 하는 작업
웹 페이지의 가장 깊은 곳으로 크롤러(또는 봇)를 개발하는 대규모 데이터 세트를 처리하는 것.
웹 크롤러(자동화 봇)가 일정 규칙으로 웹페이지를 브라우징 하는 것
여러 인터넷 사이트의 페이지(문서, html 등)를 수집해서 분류.
스크래핑(scraping)
모든 소스(예. 웹 사이트 상)에서 원하는 정보를 검색, 추출하는 기술
HTTP를 통해 웹 사이트의 내용을 긁어다 원하는 형태로 가공하는 것.
웹 사이트의 데이터를 수집하는 모든 작업.
크롤링도 일종의 스크래핑 기술이라고 할 수 있다.
=> 웹 크롤링은 그냥 돌아만 다니는 거고 스크래핑은 긁어 오는 것이다.
=> 허락된 정보인지 유무(크롤링O / 스크래핑X)
+파싱(parsing)
어떤 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공하는 것
일련의 문자열을 의미있는 토큰(token)으로 분해하고, 이들로 이루어진 파스 트리(parse tree)를 만드는 과정
https://www.promptcloud.com/blog/data-scraping-vs-data-crawling/
'Daily > 김인턴의 하루' 카테고리의 다른 글
업무계획서 작성하기 (0) | 2021.08.10 |
---|---|
ESG 경영 (0) | 2021.08.09 |
KCI급 첫 논문 작성 완료! (0) | 2020.12.21 |
국외/국내학술지 논문 레벨 (0) | 2020.12.17 |
3D face recognition (4) | 2020.12.16 |
댓글