Что такое файл robots.txt и зачем он нужен?

При создании сайта на WordPress, очень важно сделать правильный файл robots.txt для сайта и разместить его в корне вашего нового, работающего сайта. Разумеется, сегодня вся установка данного движка почти на всех хостингах автоматизирована, и этот файл создается автоматически. Но я считаю, что каждый себя уважающий вебмастер должен уметь создать такой важный файл вручную, и редактировать его когда необходимо. Естественно, сайт будет индексироваться поисковыми системами и без файла robots.txt. Но если у вас нет грамотно сделанного файла robots.txt то поисковики могут проиндексировать и ненужные вам страницы (например дубли), что в конечном итоге обязательно плохо скажется на вашем сайте. Словом удачная ускоренная индексация с robots.txt очень тесно и органично связана.


С помощью этого важного файла можно сообщить роботу адрес главное зеркало веб-ресурса, можно корректно указать путь к карте sitemap.xml. Ну и при необходимости вообще запретить индексацию веб-страницу для определенных поисковых систем.

Robots.txt для сайта WordPress

Создание правильного robots.txt для ресурса

Для создания robots.txt есть большое число всяких, разнообразных сервисов. Но все же я считаю, что лучше делать этот файл вручную, так как обычно он небольшой и вручную можно его тоньше настроить. Для создания robots.txt, также для редактирования robots.txt можно использовать стандартный блокнот Windows. Но рекомендуется для этого использовать замечательные программы notepad++ или phpdesigner.

«При этом большинство пользователей для любятт работать с notepad++, но мне больше нравится второе. Тут уж смотрите сами. Кому что-удобнее.«

А вообще если файл создается для сайта WordPress, то и как правило, устанавливается SEO плагин, создается автоматически. Например, на моем сайте установлен, сео плагин All in one Seo, и он автоматически создает файл robots.txt в самой краткой форме.

При этом файл сам физически не существует, а находится в базе данных ресурса. При необходимости его можно найти по адресу //site.ru/robots.txt. Например для моего сайта открыть его можно перейти по ссылке https://myveb.ru/robots.txt
Ну и перед тем, как перейти к директивам robots.txt давайте еще уясним несколько важных моментов.

  1. Файл robots.txt, как правило, должен быть в корне сайта и доступен для чтения, и возвращать роботу код ответа 200 (что означает, доступен)
  2. Когда в данной директории robots.txt отсутствует, то это будет означать, что поисковым машинам разрешена повсеместная индексация веб-страницы без каких либо ограничений. То же самое будет если данный файл в корне сайта присутствует, но по не определенным причинам недоступен и возвращает 404 ошибку. Следовательно, с помощью robots.txt запретить индексацию конкретной страницы всегда не проблема.
  3. Размер файла может быть до 32кб. И содержать в себе не более 1024 директив. Основные директивы (правила) файла robots.txt

User-agent — директива указывает, для какого робота предназначены инструкции.
Возможно значение * которое указывает на то, что инструкция предназначена для любого поискового робота
Если требуется задать значение для Google, то так и пишем
User-agent: Google
При этом важно обратить внимание, на то, что в случае если директива указана для конкретного робота, то директива User-agent: * не будет учтена этим роботом.
Ну и наверное одними из самыми важными являются директивы Disallow и Allow, которые соответственно либо запрещают, либо разрешают индексировать разделы сайта

«Например:
User-agent: Google
Disallow: /wp-admin
«

Директива запрещает роботам поисковика Google индексировать все страницы сайта в каталоге /wp-admin и далее.

Директива Host сообщает роботу какое именно зеркало считать главным. Например, сайт https://myveb.ru и https://myveb.ru это на самом деле два разных сайта. Конечно робот и сам может решить либо по указаниям в Вебмастере Яндекс, какое зеркало будет главным, но все же настоятельно рекомендую этот момент явно указать в robots.txt
Например:
Host: myveb.ru значит, что главным будет зеркало myveb.ru

Директива Sitemap укажет роботу прямую путь к карте вашего сайта.
Например: https://myveb.ru/sitemap.xml

Словом посещая интересные страницы в сети по созданию файла robots.txt для сайта WordPress, и вообще для любого другого сайта я убедился, что каждый гнет свою «палку».

Одни рекомендуют:

  • указать роботу с помощью директивы Disallow и Allow закрывать или открывать конкретные разделы;
  • другие строго рекомендуют не слишком злоупотреблять с добавлением новых правил;
  • а некоторые вообще не рекомендуют сделать данный файл слишком объемным.

Я лично для этого сайта оставил стандартную файл — robots.txt созданный плагином, только добавил директиву Host, чтобы сообщить роботу о том, какая страница является главным зеркалом сайта. А в остальном, ничего не трогал, и надеялся на добросовестность замечательного плагина All in one Seo.