로봇 txt를 구성하는 방법. robots txt 파일 설정에 대한 권장사항

집 / 운영 체제

Robots.txt는 검색 엔진 로봇에 대한 사이트 색인 매개변수가 포함된 텍스트 파일입니다.

robots.txt를 설정하는 방법

텍스트 편집기에서 robots.txt라는 파일을 만들고 아래 지침에 따라 입력하세요.

Yandex.Webmaster 서비스(메뉴의 Robots.txt 분석)에서 파일을 확인하세요.

사이트의 루트 디렉터리에 파일을 업로드합니다.

User-agent 지시어

YandexMedia - 멀티미디어 데이터를 색인화합니다.

특정 로봇에 대한 지시어가 있는 경우 User-agent: Yahoo 및 User-agent: * 지시어는 사용되지 않습니다.

User-agent: YandexBot #은 기본 색인 로봇에서만 사용됩니다. Disallow: /*id= User-agent: Yandex #은 모든 Yandex 로봇에서 사용됩니다. Disallow: /*sid= # 기본 색인 로봇 제외 User-agent : * #은 Yandex 로봇에서 사용되지 않습니다. 허용하지 않음: /cgi-bin

Disallow 및 Allow 지시어

로봇이 사이트나 사이트의 특정 섹션에 액세스하는 것을 금지하려면 Disallow 지시어를 사용하세요.

User-agent: YandexDisallow: / # 전체 사이트에 대한 액세스를 차단합니다. User-agent: YandexDisallow: /cgi-bin # "/cgi-bin"으로 시작하는 # 페이지에 대한 액세스를 차단합니다.

표준에 따르면 모든 User-agent 지시문 앞에 빈 줄을 삽입해야 합니다.

#캐릭터디자인해설입니다. 이 문자 뒤의 모든 내용은 첫 줄 바꿈까지 무시됩니다.

로봇이 사이트의 특정 부분이나 전체 사이트에 접근할 수 있도록 허용하려면 Allow 지시어를 사용하십시오.

User-agent: Yandex Allow: /cgi-bin Disallow: / # "/cgi-bin"으로 시작하는 페이지를 제외한 # 모든 다운로드를 금지합니다.

메모. User-agent , Disallow 및 Allow 지시문 사이에는 빈 줄 바꿈이 허용되지 않습니다.

지시문 결합

해당 User-agent 블록의 Allow 및 Disallow 지시문은 URL 접두사 길이에 따라(가장 짧은 것부터 가장 긴 것까지) 정렬되어 순서대로 적용됩니다. 여러 지시어가 특정 사이트 페이지와 일치하는 경우 로봇은 정렬된 목록에서 마지막 지시어를 선택합니다. 이렇게 하면 robots.txt 파일의 지시문 순서가 로봇에서 사용되는 방식에 영향을 주지 않습니다.

# 소스 robots.txt: User-agent: Yandex Allow: /catalog Disallow: / # 정렬된 robots.txt: User-agent: Yandex Disallow: / Allow: /catalog # "/catalog"로 시작하는 # 페이지 다운로드만 허용 # 소스 robots.txt: User-agent: Yandex 허용: /Allow: /catalog/auto Disallow: /catalog # 정렬된 robots.txt: User-agent: Yandex 허용: / Disallow: /catalog 허용: /catalog/auto # 페이지 다운로드 금지 "/catalog"로 시작하지만 # "/catalog/auto"로 시작하는 페이지 다운로드를 허용합니다.

매개변수가 없는 지시어 허용 및 허용 안 함

지시문에 매개변수가 포함되어 있지 않으면 로봇은 다음과 같이 데이터를 처리합니다.

User-agent: Yandex Disallow: # Allow와 동일: / User-agent: Yandex Allow: #은 로봇에서 고려되지 않습니다.

특수 문자 * 및 $ 사용

Allow 및 Disallow 지시어에 대한 경로를 지정할 때 특수 문자 * 및 $를 사용하여 정규식을 설정할 수 있습니다. * 문자는 일련의 문자를 나타냅니다(또는 없음). 예:

User-agent: Yandex Disallow: /cgi-bin/*.aspx # 금지 "/cgi-bin/example.aspx" # 및 "/cgi-bin/private/test.aspx" Disallow: /*private # 둘 다 금지 " /private", # 및 "/cgi-bin/private"

$ 문자

기본적으로 * 문자는 robots.txt 파일에 설명된 모든 규칙의 끝에 추가됩니다. 예:

User-agent: Yandex Disallow: /cgi-bin* # "/cgi-bin"으로 시작하는 # 페이지에 대한 액세스를 차단합니다. Disallow: /cgi-bin # 동일

규칙 끝에서 *를 취소하려면 $ 문자를 사용합니다. 예:

User-agent: Yandex Disallow: /example$ # "/example"은 금지하지만 # "/example.html"은 허용합니다. User-agent: Yandex Disallow: /example # "/example", # 및 "/example.html을 모두 금지합니다. " $ 문자는 끝에 *를 금지하지 않습니다. 즉: User-agent: Yandex Disallow: /example$ # "/example"만 금지합니다. Disallow: /example*$ # "Disallow: /example"과 정확히 동일합니다. # /example.html과 /example을 모두 금지합니다.

사이트맵 지시어

사이트 구조를 설명하기 위해 Sitemap 파일을 사용하는 경우 Sitemap 지시문의 매개변수로 파일 경로를 지정하십시오(파일이 여러 개인 경우 모든 경로 지정).

사용자 에이전트: Yandex 허용: / 사이트맵: https://example.com/site_structure/my_sitemaps1.xml 사이트맵: https://example.com/site_structure/my_sitemaps2.xml

지시어는 교차적입니다. 즉, robots.txt의 위치에 관계없이 로봇이 사용한다는 의미입니다.

로봇은 파일 경로를 기억하고 데이터를 처리하며 다음 번 사이트 방문 시 그 결과를 사용합니다.

크롤링 지연 지시어

서버가 과부하되어 다운로드 요청을 처리할 수 없는 경우 Crawl-delay 지시문을 사용하여 한 페이지를 다운로드한 후 다른 페이지 다운로드를 시작하기 전에 검색 로봇이 기다리는 최소 간격(초)을 지정할 수 있습니다.

robots.txt 처리 시 표준에서 벗어날 수 있는 로봇과의 호환성을 유지하려면 Disallow 및 Allow 지시어 바로 다음에 User-Agent 항목으로 시작하는 그룹에 Crawl-delay 지시어를 추가하세요.

Yandex 검색 로봇은 Crawl-Delay에 대해 "0.5"와 같은 분수 값을 지원합니다. 이는 검색 로봇이 0.5초마다 귀하의 사이트에 액세스한다는 의미는 아니지만 사이트 처리 속도를 높일 수 있습니다.

User-agent: Yandex Crawl-delay: 2 # 2초 시간 제한을 설정합니다. User-agent: * Disallow: /search Crawl-delay: 4.5 # 4.5초 시간 제한을 설정합니다.

Clean-param 지시어

사이트 페이지 주소에 콘텐츠에 영향을 주지 않는 동적 매개변수(예: 세션 식별자, 사용자, 리퍼러 등)가 포함된 경우 Clean-param 지시문을 사용하여 이를 설명할 수 있습니다.

Yandex 로봇은 이 정보를 사용하여 중복된 정보를 다시 로드하는 것을 방지합니다. 이는 로봇의 효율성을 향상시키고 서버 부하를 줄입니다.

예를 들어 사이트에 다음 페이지가 포함되어 있습니다.

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

ref 매개변수는 요청이 전송된 리소스를 추적하는 데에만 사용됩니다. 페이지 내용은 변경되지 않습니다. 그러면 다음과 같은 방법으로 지시어를 지정하면 세 URL 모두 book_id=123 책과 동일한 페이지를 표시합니다.

사용자 에이전트: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

Yandex 로봇은 모든 페이지 주소를 하나로 수렴합니다.

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

매개변수가 없는 페이지를 사이트에서 사용할 수 있는 경우:

www.example.com/some_dir/get_book.pl?book_id=123

다른 모든 URL은 로봇이 색인을 생성한 후 해당 URL로 대체됩니다. 페이지를 업데이트할 필요가 없으므로 사이트의 다른 페이지는 더 자주 크롤링됩니다.

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

지시문 구문

정리 매개변수: p0[&p1&p2&..&pn]

첫 번째 필드에는 무시해야 하는 매개변수를 & 문자로 구분하여 나열합니다. 두 번째 필드에는 규칙을 적용해야 하는 페이지의 경로 접두어를 나타냅니다.

접두어에는 robots.txt 파일에 사용된 것과 유사한 형식의 정규 표현식이 포함될 수 있지만 몇 가지 제한 사항이 있습니다. A-Za-z0-9.-/*_ 문자만 사용할 수 있습니다. 그러나 *는 robots.txt와 동일한 방식으로 해석됩니다. *는 항상 접두사 끝에 암시적으로 추가됩니다. 예를 들어:

정리 매개변수: s /forum/showthread.php

이는 /forum/showthread.php 로 시작하는 모든 URL에 대해 s 매개변수가 무시됨을 의미합니다. 두 번째 필드는 선택 사항이며 이 경우 규칙은 사이트의 모든 페이지에 적용됩니다. 대소문자를 구분합니다. 규칙의 최대 길이는 500자입니다. 예를 들어:

정리 매개변수: abc /forum/showthread.php 정리 매개변수: sid&sort /forum/*.php 정리 매개변수: someTrash&otherTrash

추가 예시

#다음과 같은 주소의 경우:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243 #robots.txt에는 다음이 포함됩니다. 사용자- 에이전트: Yandex Disallow: Clean-param: s /forum/showthread.php #for 주소: www.example2.com/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/index.php?page= 1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt에는 다음이 포함됩니다: User-agent: Yandex Disallow: Clean-param: sid /index.php #이러한 매개변수가 여러 개 있는 경우:www.example1.com/forum_old/showthread.php ?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt에는 다음이 포함됩니다. User-agent: Yandex Disallow: Clean-param: s&ref /forum */showthread.php # 매개변수가 여러 스크립트에서 사용되는 경우:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e71c4427317a117a&t=8243 # robots.txt에는 다음이 포함됩니다. User-agent: Yandex Disallow: Clean-param: s /forum/index.php Clean-param: s /forum/showthread.php

키릴 문자 사용

robots.txt 파일과 HTTP 서버 헤더에는 키릴 문자를 사용할 수 없습니다.

도메인 이름에는 Punycode 를 사용하세요. 페이지 주소의 경우 현재 사이트 구조에 사용된 것과 동일한 인코딩을 사용합니다.

robots.txt 파일의 예:

#잘못됨: User-agent: Yandex 허용하지 않음: / 장바구니 사이트맵: site.рф/sitemap.xml #올바름: User-agent: Yandex 허용하지 않음: /%D0%BA%D0%BE%D1%80%D0%B7%D0 %B8%D0%BD%D0%B0 사이트맵: http://xn--80aswg.xn--p1ai/sitemap.xml

추가 정보

Yandex 로봇은 이 페이지에 나열된 robots.txt 지시문만 지원합니다. 위에서 설명한 파일 처리 규칙은 기본 표준의 확장을 나타냅니다. 다른 로봇은 robots.txt 콘텐츠를 다른 방식으로 해석할 수 있습니다.

확장된 robots.txt 형식을 사용할 때의 결과는 특히 다음과 같은 기본 표준을 사용할 때의 결과와 다를 수 있습니다.

User-agent: Yandex Allow: / Disallow: /# 확장 없이는 "Allow: /"가 무시되었기 때문에 모든 것이 금지되었습니다. # 확장이 지원되므로 모든 것이 허용됩니다. User-agent: Yandex Disallow: /private*html # 확장 없이, " /private*html"은 금지되었습니다. # 지원되는 확장자는 "/private*html", # "/private/test.html", "/private/html/test.aspx" 등도 금지됩니다. User- 에이전트: Yandex Disallow: /private$ # 지원되는 확장자가 없는 경우, "/private$" 및 "/private$test" 등은 금지되었습니다. # 확장자가 지원되는 경우 "/private"만 금지됩니다. User-agent: * Disallow : / User-agent: Yandex Allow: / # 줄바꿈 누락으로 인해 지원되는 확장자가 없으면 # "User-agent: Yandex"는 무시됩니다. # 결과는 "Disallow: /"가 되지만 Yandex 로봇은 # 구문 분석합니다. "User-agent:" 하위 문자열을 기반으로 하는 문자열입니다. # 이 경우 Yandex 로봇에 대한 결과는 "Allow: /"입니다. User-agent: * Disallow: / # comment1... # comment2... # comment3... User-agent: Yandex Allow: / # 동일 이전 예에서와 같이(위 참조)

확장된 robots.txt 형식을 사용하는 예:

User-agent: Yandex Allow: /archive Disallow: / # "/archive"를 포함하는 모든 것을 허용합니다. 나머지는 금지됨 User-agent: Yandex Allow: /obsolete/private/*.html$ # "/obsolete/private/... path"에서 HTML 파일을 # 허용합니다. Disallow: /*.php$ # 모든 것을 금지합니다 "* .php" on siteDisallow: /*/private/ # "/private/"을 포함하는 모든 하위 경로를 금지하지만 # 위의 허용은 금지의 일부를 무효화합니다. Disallow: /*/old/*.zip$ # 모든 "*. User-agent: Yandex Disallow: /add.php?*user= # 경로에 "/old/"가 포함된 zip" 파일 # 모든 "add.php?"를 금지합니다. "user" 옵션이 있는 스크립트

robots.txt 파일을 생성할 때 로봇은 크기에 합리적인 제한을 두고 있다는 점을 명심해야 합니다. 파일 크기가 32KB를 초과하면 로봇은 모든 것을 허용한다고 가정합니다. 즉, 파일 크기가 32KB와 동일하게 해석됩니다.

robots.txt 파일을 올바르게 설정하면 제거됩니다. 가능한 문제, 인덱싱 중에 발생합니다.

특히 사이트 소유자는 서비스 및 리소스의 개인 섹션 색인 생성을 제한할 수 있습니다. 파일을 만들고 다양한 검색 엔진 및 인기 있는 CMS에 맞게 구성하는 방법에 대해 이 간행물에서 설명하겠습니다.

robots.txt 파일의 용도는 무엇입니까?

짐작할 수 있듯이 이 파일에는 검색 봇을 위한 지침이 포함되어 있습니다. 루트 디렉터리에 있어야 봇이 robots.txt에 설정된 조건을 읽어 페이지 색인을 생성하기 시작합니다.

따라서 파일은 사이트의 어떤 디렉토리가 색인 생성이 허용되고 어떤 디렉토리가 이 프로세스의 적용을 받지 않는지를 검색 로봇에 나타냅니다.

파일의 존재가 순위 프로세스에 영향을 미치지 않는다는 점을 고려하면 robots.txt가 포함되어 있지 않은 사이트가 많습니다. 하지만 그건 사실이 아니야 올바른 방법. robots.txt가 리소스에 제공하는 이점을 살펴보겠습니다.

리소스의 전체 또는 일부에 대한 색인 생성을 금지할 수 있으며 색인 생성을 수행할 권한을 갖게 되는 검색 로봇의 범위를 제한할 수 있습니다. 이 프로세스(예: 웹 사이트를 생성하거나 재구성하는 경우)로부터 리소스를 완전히 보호할 수 있습니다.

또한 로봇 파일은 모든 종류의 스팸 로봇이 리소스에 액세스하는 것을 제한합니다. 그 목적은 사이트에서 다음이 있는지 검사하는 것입니다. 이메일 주소, 스팸을 보내는 데 사용됩니다. 이것이 무엇으로 이어질 수 있는지에 대해 깊이 생각하지 말자. 그것은 이해할 수 있다.

검색 엔진용이 아닌 특정 사용자 집단을 위한 사이트의 색인 섹션, 개인 정보 및 기타 유사한 정보가 포함된 섹션을 숨길 수 있습니다.

올바른 robots.txt를 만드는 방법

다양한 생성자의 도움을 받지 않고도 올바른 로봇을 수동으로 쉽게 작성할 수 있습니다. 프로세스는 일반 메모장 파일에 필요한 지시문을 작성하는 것으로 요약됩니다. 그런 다음 이를 "robots"라는 이름으로 저장하고 자체 리소스의 루트 디렉터리에 업로드해야 합니다. 하나의 사이트에는 이러한 파일 하나가 필요합니다. 여기에는 필요한 모든 검색 엔진의 검색 봇에 대한 지침이 포함될 수 있습니다. 즉, 검색엔진별로 별도의 파일을 만들 필요가 없습니다.

파일에는 무엇을 적어야 하나요? User-agent 및 Disallow라는 두 가지 지시문을 사용해야 합니다. 첫 번째는 이 메시지가 어느 봇에게 전달되는지 결정하고, 두 번째는 색인 생성이 금지된 페이지 또는 리소스 디렉터리를 보여줍니다.

모든 봇에 대해 동일한 규칙을 설정하려면 User-agent 지시문의 이름 대신 별표 기호를 사용할 수 있습니다.
이 경우 robots.txt 파일은 다음과 같습니다.

그런데 Google 개발자는 robots.txt 파일의 크기가 500KB를 초과해서는 안 된다는 점을 웹마스터에게 반복해서 상기시켰습니다. 이로 인해 인덱싱 중에 오류가 발생하게 됩니다. 파일을 수동으로 생성하는 경우 이러한 크기에 "도달"하는 것은 물론 비현실적입니다. 그러나 자동으로 robots.txt 콘텐츠를 생성하는 일부 CMS는 콘텐츠를 상당히 무거워지게 만들 수 있습니다.

모든 검색 엔진에 대한 파일을 쉽게 생성

파일을 작성할 때 실수할까봐 두려운 경우(또는 이 작업을 하기에는 너무 게으른 경우) 필요한 지시어 생성을 생성자에게 맡길 수 있습니다. 두 번 두 번 하는 것처럼 간단하지만 작업 방법에 대해 간략하게 설명하겠습니다.

첫 번째 필드에는 리소스 주소가 포함됩니다. 그런 후에야 사용자는 이러한 규칙이 설정된 검색 엔진을 선택할 수 있습니다(여러 검색 엔진을 순차적으로 선택할 수 있음). 다음으로 액세스가 금지될 폴더와 파일을 지정하고, 사이트 미러 주소를 지정하고, 리소스 맵의 위치를 지정해야 합니다.

필드를 작성하면 아래쪽 필드에 필수 디렉토리가 입력됩니다. 마지막으로 해야 할 일은 해당 파일을 txt 파일로 복사하고 robots라는 이름을 지정하는 것입니다.

robots.txt 파일의 효율성을 확인하는 방법

Yandex에서 파일의 동작을 분석하려면 Yandex.Webmaster 섹션의 해당 페이지로 이동해야 합니다. 대화 상자에서 사이트 이름을 지정하고 "다운로드" 버튼을 클릭합니다.

시스템은 robots.txt 파일을 분석하고 검색 로봇이 색인 생성이 금지된 페이지를 크롤링할지 여부를 나타냅니다. 문제가 발생하면 대화 상자에서 직접 지시어를 편집하고 테스트한 다음 복사하여 루트 디렉터리의 robots.txt 파일에 붙여넣을 수 있습니다.

유사한 서비스가 Google 검색 엔진의 웹마스터 도구 서비스에서 제공됩니다.

WordPress, Joomla 및 Ucoz용 robots.txt 만들기

공개 공간에서 폭넓은 인기를 얻은 다양한 CMS는 사용자에게 자신만의 robots.txt 파일 버전을 제공합니다(또는 전혀 제공하지 않음). 종종 이러한 파일은 너무 보편적이고 사용자 리소스의 특성을 고려하지 않거나 여러 가지 중요한 단점을 가지고 있습니다.

수동으로 변경을 시도할 수도 있고(지식이 부족한 경우 그다지 효과적이지 않음) 보다 전문적인 동료의 경험을 활용할 수도 있습니다. 그들이 말했듯이 모든 것이 이미 우리 앞에 이루어졌습니다. 예를 들어 WordPress용 robots.txt는 다음과 같습니다.

물론 www.site.ru 행은 사용자 웹사이트 주소로 대체되어야 합니다.

다음 봇에 대한 색인 생성을 금지합니다.

모두를 위한
얀덱스
Google
Mail.ru
램믈러
빙
야후

주요 사이트 도메인:

페이지 간 로봇 전환 간 시간 초과:
1초 5초 10초 60초

사이트 맵인 sitemap.xml로 이동해 보겠습니다.

준비된 robots.txt:

데이터를 "robots.txt" 파일에 저장하고 사이트의 루트 폴더에 복사합니다.

"Robots.txt 생성기" 도구는 어떤 용도로 사용됩니까?

서비스 사이트는 "Robots.txt 생성기" 도구를 제공합니다. 이 도구를 사용하면 몇 초 만에 온라인으로 robots.txt 파일을 생성할 수 있을 뿐만 아니라 특정 검색 엔진의 사이트 페이지 색인 생성을 금지할 수 있습니다.

robots.txt란 무엇인가요?

Robots.txt는 사이트 루트에 있는 파일이며 검색 봇에 대한 지침이 포함되어 있습니다. 리소스를 방문하면 로봇은 일종의 "사용 지침"인 robots.txt 파일을 통해 해당 리소스에 익숙해지기 시작합니다. 출판사가 표시합니다. 이 파일로봇이 리소스와 상호 작용하는 방법. 예를 들어, 특정 페이지 색인 생성을 금지하거나 웹 서버에서 문서를 저장하는 간격을 유지하라는 권장 사항이 포함될 수 있습니다.

도구 기능

웹마스터는 Yandex, Google, Mail.ru, Rambler, Bing 또는 Yahoo! 검색 엔진의 로봇에 의한 색인 생성을 금지할 수 있을 뿐만 아니라 리소스 페이지에서 검색 로봇 전환 사이의 시간 초과를 설정하고 선택한 사이트 페이지의 색인 생성을 금지할 수 있습니다. 또한 특수 라인에서 검색 로봇에게 사이트 맵(sitemap.xml) 경로를 표시할 수 있습니다.

도구의 모든 필드를 작성하고 "만들기" 버튼을 클릭하면 시스템이 자동으로 검색 봇용 파일을 생성하며, 이 파일을 사이트의 루트 영역에 배치해야 합니다.

robots.txt 파일을 사용하면 검색결과에서 페이지를 숨길 수 없습니다. 다른 리소스가 해당 페이지에 링크될 수 있고 검색 로봇이 어떤 방식으로든 해당 페이지를 색인화하기 때문입니다. 검색결과에서 특정 페이지를 차단하려면 특별한 'NOINDEX' 태그를 사용하거나 비밀번호를 설정하세요.

Robots.txt 생성기 도구를 사용하면 순전히 권고 성격의 파일을 생성한다는 점도 주목할 가치가 있습니다. 물론 봇은 웹마스터가 robots.txt 파일에 남긴 지침을 "듣지만" 때로는 무시하기도 합니다. 왜 이런 일이 발생합니까? 각 검색 로봇에는 robots.txt 파일에서 받은 정보를 해석하는 자체 설정이 있기 때문입니다.

sitemap.xml 파일과 사이트에 대한 올바른 robots.txt는 검색 로봇이 웹 리소스의 필요한 모든 페이지를 빠르고 완벽하게 색인화하는 데 기여하는 두 가지 필수 문서입니다. Yandex와 Google의 올바른 사이트 색인 생성은 검색 엔진에서 성공적인 블로그 홍보의 열쇠입니다.

XML 형식으로 사이트맵을 만드는 방법과 그것이 필요한 이유를 이미 썼습니다. 이제 WordPress 사이트에 대한 올바른 robots.txt를 생성하는 방법과 이것이 일반적으로 필요한 이유에 대해 이야기해 보겠습니다. 상세정보이 파일에 대한 정보는 각각 Yandex와 Google에서 얻을 수 있습니다. 핵심으로 가서 내 파일을 예로 들어 WordPress의 기본 robots.txt 설정을 다루겠습니다.

웹사이트에 robots.txt 파일이 필요한 이유는 무엇입니까?

robots.txt 표준은 1994년 1월에 등장했습니다. 웹 리소스를 스캔할 때 검색 로봇은 먼저 다음을 찾습니다. 텍스트 파일 robots.txt, 사이트나 블로그의 루트 폴더에 있습니다. 이를 통해 다양한 검색 엔진의 로봇이 사이트를 색인화하는 특정 규칙을 지정할 수 있습니다.

robots.txt를 올바르게 설정하면 다음이 가능해집니다.

중복 페이지와 다양한 정크 페이지를 색인에서 제외합니다.
숨기고 싶은 페이지, 파일, 폴더의 색인 생성을 금지합니다.
일반적으로 일부 검색 로봇(예: 경쟁사로부터 들어오는 링크에 대한 정보를 숨기기 위해 Yahoo)에 대한 색인 생성을 거부합니다.
사이트의 기본 미러를 표시합니다(www 포함 또는 www 제외).
사이트맵 sitemap.xml의 경로를 지정하세요.

사이트에 대한 올바른 robots.txt를 만드는 방법

이 목적을 위한 특수 생성기와 플러그인이 있지만 수동으로 수행하는 것이 더 좋습니다.

텍스트 편집기(예: 메모장 또는 Notepad++)를 사용하여 robots.txt라는 일반 텍스트 파일을 만들고 이를 블로그 루트 폴더의 호스팅에 업로드하기만 하면 됩니다. 이 파일에는 특정 지시문을 작성해야 합니다. Yandex, Google 등의 로봇에 대한 색인 생성 규칙

이 작업을 수행하기에는 너무 게으른 경우 아래에서 내 블로그의 WordPress에 대한 올바른 robots.txt에 대한 내 관점의 예를 제공하겠습니다. 세 곳의 도메인 이름을 바꿔서 사용할 수 있습니다.

Robots.txt 생성 규칙 및 지시어

성공을 위해 검색 엔진 최적화블로그에서는 robots.txt를 생성하기 위한 몇 가지 규칙을 알아야 합니다.

부재 또는 빈 파일 robots.txt는 검색 엔진이 웹 리소스의 모든 콘텐츠를 색인화할 수 있음을 의미합니다.
robots.txt는 site.ru/robots.txt에서 열려 로봇에 200 OK의 응답 코드를 제공하고 크기는 32KB를 넘지 않아야 합니다. 열리지 못하거나(예: 404 오류로 인해) 파일 크기가 크면 괜찮은 것으로 간주됩니다.
파일의 지시문 수는 1024자를 초과할 수 없습니다. 한 줄의 길이는 1024자를 초과할 수 없습니다.
유효한 robots.txt 파일에는 여러 개의 명령문이 있을 수 있으며 각 명령문은 User-agent 지시문으로 시작해야 하며 Disallow 지시문을 하나 이상 포함해야 합니다. 일반적으로 Google 및 기타 모든 로봇에 대해서는 robots.txt에 지침을 작성하고 Yandex에 대해서는 별도로 지침을 작성합니다.

기본 robots.txt 지시어:

User-agent – 명령이 전달되는 검색 로봇을 나타냅니다.

"*" 기호는 이것이 모든 로봇에 적용된다는 것을 의미합니다. 예:

사용자 에이전트: *

Yandex에 대한 robots.txt에 규칙을 생성해야 하는 경우 다음과 같이 작성합니다.

사용자 에이전트: Yandex

특정 로봇에 대해 지시어가 지정된 경우 User-agent: * 지시어는 고려되지 않습니다.

Disallow 및 Allow – 각각 로봇이 지정된 페이지를 색인화하는 것을 금지하고 허용합니다. 모든 주소는 사이트의 루트에서 지정되어야 합니다. 세 번째 슬래시부터 시작합니다. 예를 들어:

모든 로봇이 전체 사이트를 색인화하는 것을 금지합니다.
사용자 에이전트: *
허용하지 않음: /
Yandex는 /wp-admin으로 시작하는 모든 페이지의 색인을 생성하는 것이 금지되어 있습니다.
사용자 에이전트: Yandex
허용하지 않음: /wp-admin
비어 있는 Disallow 지시문을 사용하면 모든 항목을 색인화할 수 있으며 Allow와 유사합니다. 예를 들어 Yandex가 전체 사이트를 색인화하도록 허용합니다.
사용자 에이전트: Yandex
허용하지 않음:
그 반대의 경우도 마찬가지입니다. 모든 검색 로봇이 모든 페이지를 색인화하는 것을 금지합니다.
사용자 에이전트: *
허용하다:
동일한 User-agent 블록의 Allow 및 Disallow 지시문은 URL 접두사 길이를 기준으로 정렬되어 순차적으로 실행됩니다. 사이트의 한 페이지에 여러 지시문이 적합한 경우 목록의 마지막 지시문이 실행됩니다. 이제 로봇이 지시문을 사용할 때 작성 순서는 중요하지 않습니다. 지시문에 동일한 길이의 접두사가 있으면 Allow가 먼저 실행됩니다. 본 규정은 2012년 3월 8일부터 시행되었다. 예를 들어, /wp-includes로 시작하는 페이지만 색인화되도록 허용합니다.
사용자 에이전트: Yandex
허용하지 않음: /
허용: /wp-포함

사이트맵 – XML 사이트맵 주소를 지정합니다. 하나의 사이트에는 중첩될 수 있는 여러 Sitemap 지시어가 있을 수 있습니다. 사이트 색인 생성 속도를 높이려면 모든 Sitemap 파일 주소를 robots.txt에 지정해야 합니다.

사이트맵: http://site/sitemap.xml.gz
사이트맵: http://site/sitemap.xml

호스트 - 미러 로봇에게 어떤 웹 사이트 미러를 주요 미러로 간주할지 알려줍니다.

사이트가 여러 주소(예: www가 있거나 없는 경우)에서 액세스할 수 있는 경우 필터에 의해 포착될 수 있는 완전한 중복 페이지가 생성됩니다. 또한, 이 경우 메인 페이지가 인덱스가 아닐 수도 있으나, 반대로 메인 페이지는 인덱스에서 제외됩니다. 검색 엔진. 이를 방지하려면 Yandex 전용 robots.txt 파일에 있는 Host 지시문을 사용하세요. 이 지시문은 하나만 있을 수 있습니다. Disallow와 Allow 뒤에 작성되었으며 다음과 같습니다.

호스트: 웹사이트

크롤링 지연 – 페이지 다운로드 간 지연 시간을 초 단위로 설정합니다. 로드가 많고 서버가 요청을 처리할 시간이 없는 경우에 사용됩니다. 젊은 사이트에서는 Crawl-delay 지시문을 사용하지 않는 것이 좋습니다. 다음과 같이 작성되었습니다.

사용자 에이전트: Yandex
크롤링 지연: 4

Clean-param – Yandex에서만 지원되며 변수가 있는 중복 페이지를 제거하여 하나로 병합하는 데 사용됩니다. 따라서 Yandex 로봇은 추천 링크와 관련된 페이지와 같은 유사한 페이지를 여러 번 다운로드하지 않습니다. 아직 이 지시어를 사용하지 않았지만 Yandex용 robots.txt 도움말에서 기사 시작 부분에 있는 링크를 따라가면 이 지시어를 자세히 읽을 수 있습니다.

특수 문자 * 및 $는 robots.txt에서 Disallow 및 Allow 지시문의 경로를 나타내는 데 사용됩니다.

특수 문자 "*"는 일련의 문자를 의미합니다. 예를 들어 Disallow: /*?*는 이 문자 앞뒤에 어떤 문자가 오는지에 관계없이 주소에 "?"가 나타나는 모든 페이지를 금지한다는 의미입니다. 기본적으로 특별히 지정하지 않은 경우에도 각 규칙의 끝에 특수 문자 "*"가 추가됩니다.
"$" 기호는 규칙 끝의 "*"를 취소하고 엄격한 일치를 의미합니다. 예를 들어 Disallow: /*?$ 지시문은 "?" 문자로 끝나는 페이지의 색인 생성을 금지합니다.

WordPress용 robots.txt 예

다음은 WordPress 엔진의 블로그에 대한 robots.txt 파일의 예입니다.

사용자 에이전트: * 허용하지 않음: /cgi-bin 허용하지 않음: /wp-admin 허용하지 않음: /wp-includes 허용하지 않음: /wp-content/plugins 허용하지 않음: /wp-content/cache 허용하지 않음: /wp-content/themes 허용하지 않음: / trackback 허용하지 않음: */trackback 허용하지 않음: */*/trackback 허용하지 않음: /feed/ 허용하지 않음: */*/feed/*/ 허용하지 않음: */feed 허용하지 않음: /*?* 허용하지 않음: /?s= 사용자 에이전트: Yandex 허용하지 않음: /cgi-bin 허용하지 않음: /wp-admin 허용하지 않음: /wp-includes 허용하지 않음: /wp-content/plugins 허용하지 않음: /wp-content/cache 허용하지 않음: /wp-content/themes 허용하지 않음: /trackback 허용하지 않음: */ 트랙백 허용하지 않음: */*/trackback 허용하지 않음: /feed/ 허용하지 않음: */*/feed/*/ 허용하지 않음: */feed 허용하지 않음: /*?* 허용하지 않음: /?.ru/sitemap.xml..xml

WordPress에 대한 올바른 robots.txt를 생성하는 데 속지 않으려면 이 파일을 사용할 수 있습니다. 인덱싱에는 문제가 없습니다. 복사 방지 스크립트가 있어서 미리 만들어진 robots.txt를 다운로드해서 호스팅에 업로드하는 것이 더 편리할 것입니다. Host 및 Sitemap 지시문에서 내 사이트 이름을 귀하의 이름으로 바꾸는 것을 잊지 마세요.

WordPress용 robots.txt 파일을 적절하게 구성하는 데 유용한 추가 사항

WordPress 블로그에 트리 댓글이 설치된 경우 ?replytocom= 형식의 중복 페이지가 생성됩니다. robots.txt에서 이러한 페이지는 Disallow: /*?* 지시어로 닫힙니다. 그러나 이것은 해결책이 아니며 금지 조치를 제거하고 다른 방식으로 replytocom과 싸우는 것이 좋습니다. 무엇, .

따라서 2014년 7월 현재 robots.txt는 다음과 같습니다.

사용자 에이전트: * 허용하지 않음: /wp-includes 허용하지 않음: /wp-feed 허용하지 않음: /wp-content/plugins 허용하지 않음: /wp-content/cache 허용하지 않음: /wp-content/themes 사용자 에이전트: Yandex 허용하지 않음: /wp -includes 허용하지 않음: /wp-feed 허용하지 않음: /wp-content/plugins 허용하지 않음: /wp-content/cache 허용하지 않음: /wp-content/themes 호스트: site.ru User-agent: Googlebot-Image 허용: /wp-content /uploads/ 사용자 에이전트: YandexImages 허용: /wp-content/uploads/ 사이트맵: http://site.ru/sitemap.xml

또한 이미지 인덱싱 로봇에 대한 규칙을 설정합니다.

사용자 에이전트: Mediapartners-Google
허용하지 않음:

카테고리 또는 태그 페이지를 홍보하려면 해당 페이지를 로봇에게 열어야 합니다. 예를 들어, 블로그 웹사이트에서는 카테고리가 색인 생성에서 닫히지 않습니다. 왜냐하면 카테고리는 콘텐츠 복제 측면에서 아주 미미한 작은 기사 발표만 게시하기 때문입니다. 그리고 고유한 공지 사항으로 가득 찬 블로그 피드의 인용문 표시를 사용하면 전혀 중복이 발생하지 않습니다.

위 플러그인을 사용하지 않는 경우 robots.txt 파일에서 태그, 카테고리 및 아카이브의 색인 생성을 금지하도록 지정할 수 있습니다. 예를 들어 다음 줄을 추가합니다.

허용하지 않음: /작성자/
허용하지 않음: /태그
허용하지 않음: /category/*/*
허용하지 않음: /20*

Yandex.Webmaster 패널에서 robots.txt 파일을 확인한 후 호스팅에 다시 업로드하는 것을 잊지 마세요.

robots.txt를 구성하기 위해 추가할 사항이 있으면 주석에 적어주세요. 이제 이것이 무엇인지, 사이트에 대한 올바른 robots.txt를 생성하는 방법, robots.txt 파일에서 색인 생성을 금지하는 방법 및 오류를 수정하는 방법에 대한 비디오를 시청하세요.

robots.txt 파일은 사이트의 루트 디렉터리에 있습니다. 예를 들어 www.example.com 사이트에서 robots.txt 파일 주소는 www.example.com/robots.txt와 같습니다. robots.txt 파일은 로봇 제외 표준을 따르는 일반 텍스트 파일이며, 특정 크롤러가 사이트의 특정 경로에 액세스하는 것을 거부하거나 허용하는 하나 이상의 규칙을 포함합니다.

여기에 예가 있습니다 단순 파일두 가지 규칙이 있는 robots.txt. 아래에 설명이 있습니다.

# 그룹 1 User-agent: Googlebot 허용하지 않음: /nogooglebot/ # 그룹 2 User-agent: * 허용: / 사이트맵: http://www.example.com/sitemap.xml

설명

Googlebot이라는 사용자 에이전트는 http://example.com/nogooglebot/ 디렉토리와 그 하위 디렉토리를 크롤링해서는 안 됩니다.
다른 모든 사용자 에이전트는 전체 사이트에 대한 액세스 권한을 갖습니다(생략 가능, 기본적으로 전체 액세스 권한이 부여되므로 결과는 동일함).
사이트맵 파일이 사이트는 http://www.example.com/sitemap.xml에 있습니다.

다음은 robots.txt 파일 작업에 대한 몇 가지 팁입니다. 파일을 생성하는 데 사용된 구문 규칙은 명확하지 않고 이해해야 하므로 이러한 파일의 전체 구문을 연구하는 것이 좋습니다.

형식 및 레이아웃

UTF-8 인코딩을 지원하는 거의 모든 텍스트 편집기에서 robots.txt 파일을 만들 수 있습니다. 사용하지 마십시오 워드 프로세서, 독점 형식으로 파일을 저장하고 검색 로봇이 인식하지 못하는 둥근 따옴표와 같은 잘못된 문자를 추가하는 경우가 많기 때문입니다.

robots.txt 파일을 만들고 테스트할 때 테스트 도구를 사용하세요. 이를 통해 파일의 구문을 분석하고 해당 파일이 사이트에서 어떻게 작동하는지 알아낼 수 있습니다.

파일 형식 및 위치에 관한 규칙

파일 이름은 robots.txt로 지정되어야 합니다.
사이트에는 그러한 파일이 하나만 있어야 합니다.
robots.txt 파일은 다음 위치에 있어야 합니다. 루트 디렉터리대지. 예를 들어 http://www.example.com/ 사이트의 모든 페이지에 대한 크롤링을 제어하려면 robots.txt 파일이 http://www.example.com/robots.txt에 있어야 합니다. 하위 디렉터리에 있으면 안 됩니다.(예를 들어, 주소에서 http://example.com/pages/robots.txt). 루트 디렉터리에 액세스하는 데 어려움이 있으면 호스팅 제공업체에 문의하세요. 사이트의 루트 디렉터리에 액세스할 수 없는 경우 다음을 사용하세요. 대체 방법메타 태그와 같은 잠금.
robots.txt 파일은 다음 주소에 추가될 수 있습니다. 하위 도메인(예를 들어 http:// 웹사이트.example.com/robots.txt) 또는 비표준 포트(예: http://example.com: 8181 /robots.txt).
# 기호 뒤의 모든 텍스트는 주석으로 간주됩니다.

통사론

robots.txt 파일은 UTF-8(ASCII 문자 코드 포함)로 인코딩된 텍스트 파일이어야 합니다. 다른 문자 세트는 사용할 수 없습니다.
robots.txt 파일은 다음으로 구성됩니다. 여러 떼.
각 그룹여러 개를 포함할 수 있음 규칙, 한 줄에 하나씩. 이 규칙은 또한 지시문.
그룹에는 다음 정보가 포함됩니다.
- 어느쪽으로 사용자 에이전트그룹 지시문이 적용됩니다.
- 접근할 수 있다.
- 이 에이전트는 어떤 디렉터리나 파일에 액세스합니까? 접근 불가.
그룹 지침은 위에서 아래로 읽습니다. 로봇은 가장 근접하게 일치하는 사용자 에이전트가 있는 한 그룹의 규칙만 따릅니다.
기본적으로 가정됩니다.페이지나 디렉토리에 대한 액세스가 Disallow: 규칙에 의해 차단되지 않으면 사용자 에이전트가 이를 처리할 수 있습니다.
규칙 대소문자 구분. 따라서 Disallow: /file.asp 규칙은 URL http://www.example.com/file.asp에는 적용되지만 http://www.example.com/File.asp에는 적용되지 않습니다.

robots.txt 파일에 사용되는 지시문

사용자 에이전트: 필수 지시문, 그룹에 여러 개가 있을 수 있음. 어떤 검색 엔진을 결정합니다. 기계 인간규칙이 적용되어야 합니다. 각 그룹은 이 줄로 시작합니다. Google 로봇과 관련된 대부분의 사용자 에이전트는 특별 목록과 인터넷 로봇 데이터베이스에서 찾을 수 있습니다. * 와일드카드 문자는 경로의 접두사, 접미사 또는 전체 경로를 나타내는 데 지원됩니다. 모든 크롤러에 대한 액세스를 차단하려면 아래 예와 같이 * 기호를 사용합니다( AdsBot 로봇 제외, 별도로 지정해야 함). Google 로봇 목록을 숙지하는 것이 좋습니다. 예:# 예시 1. Googlebot에 대한 접근만 차단 User-agent: Googlebot Disallow: / # 예시 2. Googlebot 및 AdsBot 로봇에 대한 접근 차단 User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # 예시 3. Googlebot에 대한 접근 차단 AdsBot User-agent를 제외한 모든 로봇: * 허용 안함: /
허용하지 않음: . 위에서 정의한 사용자 에이전트가 크롤링할 수 없는 루트 도메인과 관련된 디렉터리나 페이지를 가리킵니다. 페이지인 경우 브라우저의 주소 표시줄과 같이 해당 페이지의 전체 경로를 지정해야 합니다. 디렉터리인 경우 경로는 슬래시(/)로 끝나야 합니다. * 와일드카드 문자는 경로의 접두사, 접미사 또는 전체 경로를 나타내는 데 지원됩니다.
허용하다: 하나 이상의 Disallow: 또는 Allow: 지시문이 각 그룹에 있어야 합니다.. 위에서 정의한 사용자 에이전트가 크롤링할 수 있는 루트 도메인과 관련된 디렉터리나 페이지를 가리킵니다. Disallow 지시문을 무시하고 검색을 위해 닫힌 디렉터리의 하위 디렉터리나 페이지를 검색하도록 허용하는 데 사용됩니다. 페이지인 경우 브라우저의 주소 표시줄과 같이 전체 경로를 지정해야 합니다. 디렉터리인 경우 경로는 슬래시(/)로 끝나야 합니다. * 와일드카드 문자는 경로의 접두사, 접미사 또는 전체 경로를 나타내는 데 지원됩니다.
사이트맵: 선택적 지시어는 파일에 여러 개 있을 수도 있고 전혀 없을 수도 있습니다.이 사이트에서 사용되는 Sitemap의 위치를 나타냅니다. URL은 완전해야 합니다. Google은 http 및 https 접두어가 있거나 www 요소가 있거나 없는 변형 URL을 처리하거나 확인하지 않습니다. 사이트맵 Google에 어떤 콘텐츠를 알려주세요. 필요하다스캔한 내용과 이를 구별하는 방법 할 수 있다또는 그것은 금지되어 있다주사. 예:사이트맵: https://example.com/sitemap.xml 사이트맵: http://www.example.com/sitemap.xml

다른 규칙은 무시됩니다.

또 다른 예

robots.txt 파일은 그룹으로 구성됩니다. 각각은 규칙을 따라야 하는 로봇을 정의하는 User-agent 라인으로 시작됩니다. 다음은 두 그룹과 두 그룹에 대한 설명 주석이 포함된 파일의 예입니다.

# example.com/directory1/... 및 example.com/directory2/...에 대한 Googlebot의 액세스는 차단하지만 # Directory2/subdirectory1/...에 대한 액세스는 허용합니다. # 다른 모든 디렉토리에 대한 액세스는 기본적으로 허용됩니다. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # 다른 검색 엔진이 전체 사이트에 액세스하는 것을 차단합니다. 사용자 에이전트: anothercrawler 허용하지 않음: /

robots.txt 파일의 전체 구문

전체 구문은 이 문서에 설명되어 있습니다. robots.txt 파일의 구문에는 몇 가지 중요한 뉘앙스가 있으므로 익숙해지는 것이 좋습니다.

유용한 규칙

robots.txt 파일에 대한 몇 가지 일반적인 규칙은 다음과 같습니다.

규칙	예
전체 사이트 크롤링을 금지합니다.경우에 따라 사이트 URL이 크롤링되지 않았더라도 색인에 존재할 수 있습니다. 별도로 지정해야 하는 AdsBot 로봇에는 이 규칙이 적용되지 않습니다.	사용자 에이전트: * 허용하지 않음: /
디렉토리 및 모든 내용의 스캔을 방지하려면, 디렉터리 이름 뒤에 슬래시를 넣으세요. 보호를 위해 robots.txt를 사용하지 마세요. 기밀 정보! 이러한 목적으로 인증을 사용해야 합니다. robots.txt 파일에 의해 크롤링이 차단된 URL은 색인화될 수 있으며, robots.txt 파일의 내용은 모든 사용자가 볼 수 있으므로 민감한 정보가 포함된 파일의 위치가 드러납니다.	사용자 에이전트: * 허용하지 않음: /calendar/ 허용하지 않음: /junk/
하나의 크롤러만 크롤링을 허용하려면	User-agent: Googlebot-news 허용: / User-agent: * 허용하지 않음: /
하나를 제외한 모든 크롤러에 대해 크롤링을 허용하려면	User-agent: Unnecessarybot 허용하지 않음: / User-agent: * 허용: /
특정 페이지가 크롤링되는 것을 방지하려면, 슬래시 뒤에 이 페이지를 지정하십시오.	사용자 에이전트: * 허용하지 않음: /private_file.html
Google 이미지 로봇에서 특정 이미지를 숨기려면	사용자 에이전트: Googlebot-이미지 허용 안함: /images/dogs.jpg
Google 이미지 로봇에서 사이트의 모든 이미지를 숨기려면	사용자 에이전트: Googlebot-이미지 허용 안 함: /
특정 유형의 모든 파일이 검사되지 않도록 하려면(다섯 이 경우 GIF)	사용자 에이전트: Googlebot 허용하지 않음: /*.gif$
사이트의 특정 페이지를 차단하지만 여전히 해당 페이지에 애드센스 광고를 게재하려면, Mediapartners-Google을 제외한 모든 로봇에 허용 안함 규칙을 사용하세요. 결과적으로 이 로봇은 특정 사용자에게 표시할 광고를 선택하기 위해 검색 결과에서 제거된 페이지에 액세스할 수 있습니다.	User-agent: * 허용하지 않음: / User-agent: Mediapartners-Google 허용: /
다음으로 끝나는 URL을 지정하려면 특정 조각 , $ 기호를 사용합니다. 예를 들어, .xls로 끝나는 URL의 경우 다음 코드를 사용합니다.	사용자 에이전트: Googlebot 허용하지 않음: /*.xls$

이 정보가 도움이 되었나요?

이 기사를 어떻게 개선할 수 있나요?