Файл robots txt и индексация сайта

Текстовой файл robots.txt сайта – это обычный txt документ содержащий особые указания для поисковых роботов. robots.txt создается в текстовом формате Unix. Однако вебмастеру при создании robots.txt не нужно заботиться о том в правильном формате создается файл или нет – современные текстовые редакторы сами превратят строки документа в формат Windows в Unix.

Файл robots.txt создается для запрета доступа к содержимого сайта. Файлом robots.txt можно запретить доступ как к всему сайту, так и к определенным директориям.

«Данный файл robots.txt создается для поисковых роботов. Первое на что обращают внимание краулеры (роботы-поисковики) зашедшие на сайт – это есть ли robots.txt на сайте или нет. Ограничив доступ к определенным папкам, мы уменьшаем время индексации сайта, и тем самым оптимизируем работу поискового робота.«

Что робот индексирует на странице? Все зависит от поисковика. В некоторых поисковых машинах краулеры захватывают только Title страницы, другие поисковики учитывают лишь первые абзацы текста, а третьи учитывают текст всего документа. Кроме того одни поисковики направлены на прочтение и индексацию слов с различным весом, а другие делают упор на мета-теги.

Текстовой файл robots txt и индексация сайта

С какой страницы начинается индексирование

Как известно в файле robots txt запретить индексацию сайта можно вообще и поисковой робот не станет произвести индексацию. Но интересно другое — с какой же страницы посещают поисковые боты прежде всего. По мнению специалистов в основном, робот-паук начинают индексацию страниц, на которые идет большее количество внешних ссылок. Обработав страницы на которые идут входящие ссылки робот переходит на остальные страницы сайта. Следует учитывать, что время пребывания краулера для индексации ограничено.

«Как можно создать этот файл в правильном формате? Это легко можно сделать с использованием любого текстового редактора, например, Блокнотом или WordPad. Только созданному файлу требуется присвоить имя «robots.txt». После того, как файл создан следует заполнить его определенными командами (язык robots.txt указывается ниже).«

Команды robots txt

Команда user-agent. Это строка с указанием названия робота. Файл robots.txt должен содержать
минимум одну запись с директивой user-agent.

1)Пример записи:
User-agent: Yandex
disallow:
-директива с обращением к поисковому роботу Yandex. Разрешено посещение всех папок.
2)Пример записи:
User-agent: Googlebot
disallow:*
-директива с обращением к поисковому роботу Google. Запрещено посещение всех папок сайта
3)Пример записи:
User-agent: *
disallow:*/comments
-директива с обращением ко всем поисковым роботам. Запрещено в robots.txt индексировать папку с комментариями. Подобным образом легко можно с помощью файла robots txt запретить страницу любую для посещения.

Команда Disallow. Обязательная команда запрещающая поисковому роботу доступ страницам сайта. Файл robots.txt должен содержать минимум одну запись с директивой disallow. Правило Disallow должно начинаться с символа ‘/’ или с символа ‘*’.

Команда Host. Указывает основное зеркало. Необязательная директива robots.txt
Пример записи:
User-agent: *
Disallow:
Host: seoptimizacia.ru
-всем поисковым машинам разрешено посещение всех страниц и папок на сайте. Основное зеркало:
seoptimizacia.ru

Команда Allow разрешает доступ к определенным папкам или файлам сайта. Однако данную команду нужно писать до директив Disallow иначе команда Allow перестает работать. Данной командой пользуются редко, поскольку в robots.txt действует правило – разрешено все то что не запрещено.
Пример:
User-agent:*
Allow : /ob-avtore/
Disallow:*
-всем поисковым машинам запрещено посещение всех страниц и папок на сайте, кроме страницы myveb.ru/ob-avtore/
Правило Allow должно начинаться с символа ‘/’ или с символа ‘*’

В robots.txt применяются Дополнительные знаки

* – символ равный значению “все”
# – строки после этого знака это комментарии

Распространенные ошибки при написании robots.txt

Самые распространенные ошибки robots.txt допускаемые при составление данного файла

Имя файла содержит заглавные буквы – Robots.txt или ROBOTS.TXT
Файл robots.txt размещен не не в корневой директории сайта
Пустое поле после директивы User-agent
В файле robots.txt нет команды Disallow
Написание нескольких строк “Disallow: *”