Dec 13, 2009
Правильный robots.txt
Поисковые роботы (пауки) перед началом индексации сайта – сначала ищут файл robots.txt. Он является своего рода манипулятором робота: он закрывает/открывает каталоги или файлы к индексации.
Из чего состоит этот файл – и будет написано в этой статье.
Строка User-agent должна содержать название поискового робота. Например, User-agent: googlebot. Если же, вы желаете обратиться ко всем роботам: используйте символ «*».
User-agent: *
Название роботов различных поисковых машин вы сможете найти в логах своего сайта. Или поищите где-нибудь.
Поле Disallow.
Строки – директивы для указанного робота. Они запрещают ему (роботу) индексировать файлы/директории. На примере файла secret.html
Disallow: secret.html
Или же название каталога:
Disallow: /cgi-bin/
Чтобы разрешить абсолютно всем индексировать абсолютно всё:
User-agent: *
Disallow:
Чтобы запретить:
User-agent: *
Disallow: /
Чтобы запретить папки с названием «cgi-bin» и «images» :
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Запретить только роботу Google сканировать файл «topsecret.html»:
User-agent: googlebot
Disallow: topsecret.html
Не стоит совершать ошибки. Например:
Не указывайте в одной строке Disallow несколько директив
Disallow: /css/ /cgi-bin/ /images/
Несколько директив Disallow в одной строке
Многие указывали несколько директив на одной строке:
Disallow: /css/ /cgi-bin/ /images/
Пауки могут этого не понять, проигнорировать пробелы и запретить целые директории.
Правильно так:
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
Если у вы не хотите, чтобы файлы с каталога попали в индекс – закрывайте каталоги, но не файлы:
Не нужно так делать:
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html
Сделайте так:
Disallow: /AL
Disallow: /Az
Не перегружайте файл robots.txt, поисковый робот, который будет загружать этот файл несколько минут и читать около 5000 запрещенных файлов – может не вернуться на сайт.
