Robots.txt 그게 뭐죠?

by 라임라이트 기술영업부

Robots.txt 파일이란 웹 크롤러(Web Crawlers)와 같은 착한 로봇들의 행동을 관리하는 것을 말합니다. 우리가 이 로봇들을 관리해서 원하는 페이지를 노출이 되게 혹은 노출이 안되도록 다룰 수 있습니다.

우리의 삶처럼 인터넷 세상에선 착한 로봇과 나쁜 로봇이 존재합니다. 이 로봇들이 포털사이트(Google, Bing, Baidu)를 돌아다니며 정보를 수집하는데 웹 크롤러와 같은 착한 종류의 로봇들은 사이트를 돌아다니면서 검색엔진 결과에 잘 노출되도록 합니다. 즉 우리가 포털 사이트에서 검색을 했을 때 우리가 원하는 사이트가 사용자들에게 잘 보여지는 겁니다.

한마디로 헬스장이나 식당 벽에 ‘주의사항’ 이 벽에 붙어있어도 어떤 사람들은 규칙을 무시하고 어떤 사람들은 규칙을 따르는 것과 같습니다.

■ Robots.txt 파일은 HTML 마크업 코드가 없고 웹사이트의 다른 파일들처럼 웹서버에서 호스팅 됩니다. 파일은 사이트의 어디에도 연결되지 않아 사용자가 파일을 우연히 볼일은 적지만 대부분의 웹 크롤러 봇들은 나머지 사이트를 크롤링하기 전에 먼저 이 파일을 찾습니다.

■ 로봇들에 대한 지침을 제공하지만 실제로 지침을 시행할 수는 없습니다. 웹 크롤러와 같이 착한 로봇은 도메인의 다른 페이지를 보기전에 먼저 Robots.txt 파일을 방문하려고 합니다. 반면, 나쁜 로봇은 Robots.txt 파일을 무시하거나 금지된 웹페이지를 찾으려고 이를 진행하기도 합니다.

■ 웹 크롤러 로봇은 Robots.txt 파일에서 가장 구체적인 지침을 따르고 파일에 모순된 명령이 있을 땐 보다 세부적인 명령을 따릅니다.

■ 중요한 건 모든 서브 도메인에 자체 Robots.txt 파일이 필요합니다.

■ 로봇 관리는 웹 사이트나 응용 프로그램을 실행하고 유지하는 데에 아주 중요합니다. 착한 로봇의 활동조차 오리진 서버에 부담이 가해져 웹 속성이 느려 지거나 중단될 수도 있기 때문입니다. 잘 구성된 Robots.txt 파일은 SEO에 최적화된 웹사이트를 유지하고 착한 로봇의 활동을 통제할 수 있습니다.

■ Robots.txt 파일에 사용되는 프로토콜은 다음과 같습니다.

Robots.txt 기본 문법 알아보기

– User-Agent: 웹사이트 관리자가 어떤 종류의 로봇이 크롤링을 하는지 알 수 있게 돕는다.

– Disallow: 이 명령은 어떤 웹페이지 URL을 크롤링 하지 않아야 하는지 알려줍니다.

– Allow: 모든 검색엔진이 이 명령을 인식하지는 않지만 특정 웹페이지나 디렉토리에 접근하라는 명령입니다.

– Crawl-delay: 검색엔진 스파이더 봇이 서버를 과도하게 사용하지 못하도록 대기하라는 명령입니다.

– Robots Exclusion Protocol

– Sitemaps Protocol

이스터에그(Easter Egg), 너가 거기서 왜 나와?

갑자기 화면이 울렁거리기도 하고 레이저도 쏘며 로고가 음악에 맞춰 춤을 추기도 하는 바로 이것!

‘이스터에그’란 부활절에 재미로 삶은 달걀에 생 달걀을 섞어 깜짝 놀라게 하는 것에서 유래해, 개발자가 숨겨놓은 메시지나 기능을 말합니다. 다음시간에는 영상편집 워크플로우에 대하여 살펴보도록 하겠습니다.

연관된 글