웹 스크래핑이란 무엇입니까?

by 라임라이트 기술영업부

웹 스크래핑이란 무엇입니까?

간단히 말하자면 웹 스크랩 (웹 수집이라고도 함)은 웹 사이트에서 데이터를 추출하는 프로세스입니다.  웹 스크래핑의 목적은 웹에서 공개 되어 있는 데이터를 자동으로 수집하여 데이터를 추출하고 저장 한 후 여러가지 용도로 사용하기 위함 입니다. (ex:연락처 정보를 찾기, 웹 사이트에서 가격 비교) 웹 스크래핑이란 어떤 것 인지에 대하여 지금부터 자세히 알아보도록 하겠습니다.  먼저 웹 스크래핑 프로세스의 작동 방식을 기본 수준부터 살펴보겠습니다.

웹 스크래핑은 봇이 웹 사이트에서 콘텐츠의 대부분 또는 전부를 다운로드 하는 행위를 말합니다. 웹 스크랩(콘텐츠 스크랩)은  말하자면 데이터 스크랩의 일부분이라고 생각하시면 됩니다.  이는 자동화된 봇이 수행을 하고, 웹 사이트 스크레이퍼 봇은 웹 사이트의 모든 콘텐츠를 몇 초 안에 다운로드 할 수 있습니다.

웹 스크래핑 봇은 공격자가 소유 한 웹 사이트에서 콘텐츠 복제, 저작권 위반 및 유기적 트래픽 도용과 같은 악의적인 목적으로 콘텐츠를 재사용하는 데  사용하기도 합니다.  컨텐츠 스크랩은 추가 게이트 컨텐츠에 액세스하기 위해 양식을 작성하고 제출하는 것을 포함 할 수 있으며, 회사 데이터베이스에 정크 데이터를 야기시키기도 합니다. 

봇은 어떻게 콘텐츠를 읽어갈 수 있을까요?

웹 사이트 스크레이퍼 봇은 일반적으로 일련의 HTTP GET 요청을 보낸 다음 웹 서버가 전송하는 모든 정보를 복사하여 저장하여 웹 사이트가 모든 콘텐츠를 복사 할 수 있습니다. 예를 들어,보다 정교한 스크레이퍼 봇은 JavaScript를 사용하여 웹 사이트의 모든 양식을 작성하고 모든 게이트 된 컨텐츠를 다운로드 할 수 있습니다. “브라우저 자동화”프로그램 및 API를 사용하면 웹 사이트 및 API가 마치 웹 사용자가 컨텐츠에 액세스한다고 생각하도록 웹 사이트의 서버를 속이려고 하는 것처럼 웹 사이트 및 API와 자동화 된 봇 상호 작용이 가능합니다.

물론 개인은 전체 웹 사이트를 수동으로 복사하여 붙여 넣을 수 있지만 봇은 수백 또는 수천 개의 개별 제품 페이지가 있는 전자 상거래 사이트와 같은 대규모 사이트의 경우에도 몇 초 안에 웹 사이트의 모든 콘텐츠를 크롤링하고 다운로드 할 수 있습니다. 때문에 이에 대한 관리나 대책 마련이 반드시 필요한 부분입니다.

다음 시간에는 웹스크래핑 봇은 어떤 종류의 콘텐츠를 대상으로 실행이 되는지와 어떤 종류의 웹 스크래핑이 있는지에 대하여 더 자세히 알아보도록 하겠습니다.

연관된 글