Блог студии веб-дизайна «Make a Site» Дизайн, верстка, программирование, наполнение и раскрутка сайтов.

Правильный robots.txt для сайта

Файл robots.txt предназначен для управления индексацией вашего сайта поисковыми системами, а также для ее ускорения. Если файла robots.txt у вас еще нет — ничего страшного, сайт может индексироваться и без него, но все же лучше его создать и разместить в корневой директории сайта.

Правильный robots.txt для сайта

Для удобства управления индексацией вашего сайта поисковыми системами был придуман специальный файл robots.txt, который необходимо размещать в корневой директории вашего сайта. Основным его предназначением является передача различных команд поисковым системам, носящих, скорее, рекомендательный характер, чем указательный (зависит от типа команд).

Команды, отправляемые при помощи файла robots.txt называются директивами. Специально для этого созданный раздел помощи Яндекса, посвященный использованию robots.txt, предоставляет исчерпывающую информацию по данной теме, поэтому рекомендуем обязательно с ней ознакомиться.

Некоторые директивы будут учитываться как указание к действиям, например запрет индексации тех или иных разделов сайта, а некоторые — скорее как рекомендация. Яндекс периодически недвусмысленно намекает на этот факт и всегда предусмотрительно оставляет за собой право поступить по-своему, проигнорировав пожелания веб-мастера.

Но все же давайте поговорим о том, как создать правильный robots.txt, ничего при этом не упустив, а главное, не навредив сайту. Прежде всего, будьте осторожны с этим файлом, ведь небольшая опечатка может привести к случайному закрытию от индексации важных разделов и если ошибку вы заметите только после того, как важные страницы выпадут из индекса, вам долго придется ждать, пока они вернутся обратно после исправления ошибки. Особенно это касается сайтов, частота посещения поисковым роботом которых достаточно невелика. Один неверный шаг и восстановления придется ждать несколько недель, что может критично сказаться на посещаемости и, как результат, на заработке. Лучше воспользоваться специальным инструментом для проверки файла robots.txt в соответствующем разделе Яндекс.Вебмастера.

Прежде всего, в файле robots.txt нужно указать предпочитаемый хост:

Host: makeasite.ru

Дело в том, что адрес вашего сайта с www и без, по сути является одним и тем же, и многие привыкли так думать. Однако, это совсем не так. Адрес вашего сайта без www — это обычный домен первого уровня (иногда его еще принято называть доменом верхнего уровня). Если добавить www с точкой перед вашим доменным именем, то это уже получается домен второго уровня. Поисковые системы считают эти домены совершенно разными и независимым друг от друга полноценными сайтами. Все равно, что вместо www было бы demo, test, static и т. д.

Но в случае с www, если на обоих доменах находится один и тот же контент, он обязательно будет «склеен» поисковыми системами и из двух будет выбран только один. Так вот директива Host как раз и предназначена для того, чтобы вы смогли указать, какой из двух доменом предпочтительней. Кстати, домены, на которых находится совершенно идентичный контент принято называть зеркалами. Главное зеркало — тот домен, который будет выбран веб-мастером как основной, а все остальные просто к нему «подклеиваются».

Далее, когда с главным зеркалом мы определились, двигаемся дальше. Директива Disallow существует для того, чтобы веб-мастер имел возможность закрыть доступ поисковым системам к служебным страницам, не представляющим интереса для посетителей, например, /admin/. Система администрирования находится в папке admin, доступ к которой разрешен только авторизованным администраторам системы, поэтому сразу закрываем этот раздел от индексации за ненадобностью:

User-agent: *
Disallow: /admin/

В данном примере от индексации закрыта директория admin и все страницы, расположенные внутри нее. Правило должны учитывать все поисковые системы, которые обозначаются знаком «*» в директиве User-agent. Также вы можете создавать отдельные правила как для Яндекса, так и для Гугла, указывая их имена вместо звездочки перед тем или иным правилом, но такое встречается довольно редко, поэтому движемся дальше.

Часто бывает так, что от индексации нужно закрыть определенные страницы, которые генерируются в зависимости от переменных параметров в адресе страницы, а не от статичного имени директории, тогда на помощь приходит директива Clean-param, предназначенная для удаления лишних дублей страниц, которые в своем адресе содержат переменные, не влияющие на их содержание. Также можно просто закрыть от индексации все страницы с результатами поиска, что, кстати говоря, Яндекс настоятельно рекомендует делать, сообщая об этом в разделе помощи веб-мастеру.

Clean-param: s /

В данном примере мы убираем параметр s из адреса страниц в директории blog. Такими страницами являются страницы результатов поиска, где s – поисковый запрос, который все время будет принимать разные значения и дублей служебных страниц может наплодиться просто невероятное количество. Чтобы этого избежать, мы просто удаляем этот параметр и поисковики не станут индексировать подобные страницы.

http://makeasite.ru/?s=robots.txt
http://makeasite.ru/?s=robots
http://makeasite.ru/?s=robots+txt

Как видно из примера поисковых запросов, возможных вариантов может быть достаточно много, а содержание страницы с результатами поиска при этом будет идентичным. Создание дублей страниц в поисковом индексе — последнее дело, которого всячески нужно стараться избегать. Наоборот, нужно стараться сделать все, чтобы в индексе оказались только самые важные страницы вашего сайта, а весь «мусор» закрыть от индексации. В таком случае робот чаще будет индексировать важные страницы, не тратя время и ресурсы (которые ограничены для каждого сайта) на ненужные дубли служебных разделов.

В конце файла robots.txt есть смысл добавить ссылку на специально созданную для поисковых систем карту сайта sitemap.xml. Не путайте ее с обычной html картой, которую создают для людей, это две совершенно разных карты, хотя их предназначение и схоже, ведь обычная html карта также может быть полезна и для поисковой машины. Если робот получит доступ к обычной html карте, то есть вероятность, что благодаря этому он быстрее доберется до всех страниц вашего сайта.

Для указания пути к карте сайта в формате XML необходимо воспользоваться директивой Sitemap. Вот пример использования этой директивы в файле robots.txt:

Sitemap: http://makeasite.ru/sitemap.xml

Теперь вы знаете, как создать правильный robots.txt для вашего сайта, не навредив ему при этом. Правильно составленный файл robots.txt поможет значительно ускорить индексацию вашего сайта в поисковых системах.


Предыдущая статья:
Ускорение индексации сайта поисковыми системами

Читайте также:
Мультиязычный сайт и основные способы его реализации


Блог студии веб-дизайна «Make a Site».
Дизайн, верстка, программирование, наполнение и раскрутка сайтов.

Текущий проект: «Stream Booster» — раскрутка Twitch и YouTube каналов

Студия веб-дизайна «Make a site»