Semalt : Darodar Robots.txt를 차단하는 방법

Robots.txt 파일은 웹 크롤러 또는 봇이 사이트를 크롤링하는 방법에 대한 지침이 포함 된 일반적인 텍스트 파일입니다. 그들의 응용 프로그램은 수많은 최적화 된 웹 사이트에서 일반적인 검색 엔진 봇에서 분명합니다. REP (Robots Exclusion Protocol)의 일부인 robots.txt 파일은 서버가 사용자 요청을 적절히 인증 할 수있게 해줄뿐만 아니라 웹 사이트 컨텐츠 색인 생성의 필수 요소를 형성합니다.

Semalt 선임 고객 성공 관리자 인 Julia Vashneva는 연결이 틈새 시장 내 다른 도메인에서 트래픽을 얻는 것과 관련된 검색 엔진 최적화 (SEO)의 한 측면이라고 설명합니다. 링크 주스를 전송하기위한 "팔로우"링크의 경우 서버가 사이트와 상호 작용하는 방식의 강사 역할을하기 위해 웹 사이트 호스팅 공간에 robots.txt 파일을 포함해야합니다. 이 아카이브에서 일부 특정 사용자 에이전트의 작동 방식을 허용하거나 거부하여 지침이 제공됩니다.

robots.txt 파일의 기본 형식

robots.txt 파일에는 두 가지 필수 줄이 있습니다.

사용자 에이전트 : [사용자 에이전트 이름]

허용 안함 : [URL 문자열을 크롤링하지 않음]

완전한 robots.txt 파일에는이 두 줄이 포함되어야합니다. 그러나 이들 중 일부는 여러 줄의 사용자 에이전트 및 지시문을 포함 할 수 있습니다. 이러한 명령에는 허용, 허용 또는 크롤링 지연과 같은 측면이 포함될 수 있습니다. 일반적으로 각 명령어 세트를 구분하는 줄 바꿈이 있습니다. 각 허용 또는 허용 안 함 명령은이 줄 바꿈으로 구분됩니다 (특히 여러 줄이있는 robots.txt의 경우).

예를 들어 robots.txt 파일에는 다음과 같은 코드가 포함될 수 있습니다.

사용자 에이전트 : darodar

허용하지 않음 : / plugin

허용 안 함 : / API

허용 안함 : / _comments

이 경우 Darodar 웹 크롤러가 웹 사이트에 액세스하지 못하도록 제한하는 robots.txt 파일 차단입니다. 위의 구문에서 코드는 플러그인, API 및 주석 섹션과 같은 웹 사이트의 측면을 차단합니다. 이 지식을 통해 로봇의 텍스트 파일을 효과적으로 실행하면 많은 이점을 얻을 수 있습니다. Robots.txt 파일은 다양한 기능을 수행 할 수 있습니다. 예를 들어 다음과 같은 준비가되어 있습니다.

1. 모든 웹 크롤러 컨텐츠를 웹 사이트 페이지에 허용하십시오. 예를 들어;

사용자 에이전트: *

허용하지 않음 :

이 경우 웹 크롤러가 웹 사이트를 방문하도록 요청하는 모든 웹 크롤러가 모든 사용자 컨텐츠에 액세스 할 수 있습니다.

2. 특정 폴더에서 특정 웹 컨텐츠를 차단하십시오. 예를 들어;

사용자 에이전트 : Googlebot

허용 안 함 : / example-subfolder /

사용자 에이전트 이름 Googlebot을 포함하는이 구문은 Google에 속합니다. 봇이 www.ourexample.com/example-subfolder/ 문자열의 웹 페이지에 액세스하는 것을 제한합니다.

3. 특정 웹 페이지에서 특정 웹 크롤러를 차단하십시오. 예를 들어;

사용자 에이전트 : Bingbot

허용 안 함 : /example-subfolder/blocked-page.html

사용자 에이전트 Bing 봇은 Bing 웹 크롤러에 속합니다. 이 유형의 robots.txt 파일은 Bing 웹 크롤러가 www.ourexample.com/example-subfolder/blocked-page 문자열을 사용하여 특정 페이지에 액세스하는 것을 제한합니다.

중요한 정보

  • 모든 사용자가 robts.txt 파일을 사용하는 것은 아닙니다. 일부 사용자는이를 무시하기로 결정할 수 있습니다. 이러한 웹 크롤러의 대부분에는 트로이 목마 및 맬웨어가 포함됩니다.
  • Robots.txt 파일을 보려면 최상위 웹 사이트 디렉토리에서 사용할 수 있어야합니다.
  • "robots.txt"문자는 대소 문자를 구분합니다. 결과적으로 일부 측면의 대문자를 포함하여 어떤 식 으로든 변경해서는 안됩니다.
  • "/robots.txt"는 공개 도메인입니다. URL의 내용에 추가하면 누구나이 정보를 찾을 수 있습니다. 중요한 세부 정보 나 개인 정보를 유지하려는 페이지는 색인화해서는 안됩니다.