11. Создаём robots.txt для сайта

Как-создать-файл-robots.txt

Что такое — robots.txt

Это файл — командир на сайте, к которому в первую очередь приходят для знакомства поисковые роботы: Яндекс, Yahoo, MSN, Ask, Рамблер, Aport, AOL, Alexa, Live, AOL, AltaVista, Alexa, Lycos, AOL, Мэйл.ру

robots.txt сообщает гостям – поисковикам, куда можно заходить на сайте, а куда нельзя, а так же сколько времени можно потратить на окончание загрузки одной страницы и началом загрузки следующей для скачивания информации с сервера. В этом файле так же указывается путь к карте сайта sitemap.xml

Короче, это текстовый файл, называемый robots.txt с инструкцией для поисковых роботов, находящийся в корневой директории сайта на хостинге.

Если на сайте можно индексировать все файлы, и никаких запретов для индексации нет, тогда делаем пустой файл robots.txt и вставляем в корневую директорию.

Для чего нужна индексация?

На сайте всегда имеется информация разной важности. Новые статьи — это важная информация, которая индексируется роботами как хорошая. А вот установленные плагины, которые не будут меняться после их установки — не особо важная. Поэтому нет смысла утруждать роботов каждый раз заглядывать в этот не изменяющийся раздел.

Поэтому, в директиве robots.txt мы сделаем отметку о запрещении каким бы — то ни было роботам заходить в этот отдел сайта.

Иногда бывает повторение информации, например я, дублирую заметки в страницы с одним и тем же текстом. Роботы считают это плагиатом и дают плохую характеристику сайту.

А нам это надо?

Конечно нет! Исходя из этого принципа мы и будем выстраивать свой robots.txt с такими запретами на индексацию, которые нам необходимы.

robots.txt у всех свой, но принцип построения общий. Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.

Директивы — указания robots.txt

Файл robots.txt может содержать следующие директивы для управления индексацией: User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param.
Директива ниже написана для бота Яндекса она запрещает индексацию wp-admin

User-agent: Yandex
Disallow: /wp-admin

Disallow
— это запретительная директива.

По общим правилам построения директив необходимо ставить хотя бы одну директиву Disallow, поэтому в отдельном случае пустую всё разрешающую директиву для всех ботов.

Параметрами данного оператора — директивы Disallow являются адреса папок или документов, которые нужно запретить к индексу. Они всегда начинаются с символа «/», т.к. он является адресом корневого каталога. Поэтому если вы хотите запретить к индексу все разделы сайта, то используйте:

Disallow: /

Примеры:

User-agent: *
Disallow: /wp-content/plugins — запрет индексации для всех ботов страниц с плагинами

User-agent: *
Disallow: /image/-запрет индексации для всех ботов картинок на сайте

User-agent: *
Disallow: — здесь всем ботам разрешена индексация без исключения

User-agent: *
Disallow: / — всем поисковикам запрещена всякая индексация

User-agent: Yandex
Disallow:
Host: www.site.ru

Только для робота Yandex есть специальная директива указывающая основное зеркало сайта: Host.
Директива host является корректной только для робота Яндекса.

К сведению, директиву ALLOW GOOGLEBOT не читает

Файл robots.txt ничего не разрешает, только запрещает!

Директива Sitemap — предназначена для указания роботу поисковой системы, в каком месте на хостинге лежит карта сайта. Формат карты сайта должен быть sitemaps.xml. Карта сайта нужна для более быстрой и полной индексации сайта. Причем карта сайта это не обязательно один файл, их может быть несколько. Формат записи директы:

Sitemap: http://seob.info/sitemaps1.xml
Sitemap: http://seob.info/sitemaps2.xml

Директива Host — указывает роботу основное зеркало сайта. Что бы не было в индексе зеркал сайта, всегда нужно указывать эту директиву. Если ее не указать, робот Яндекса будет индексировать как минимум две версии сайт с www и без. Пока робот зеркальщик их не склеит.

Спецсимвол * — заменяет любую последовательность символов. Он по умолчанию приписывается к концу каждого правила. Даже если вы его не прописали, ПС сами приставят.

ДО ВСТРЕЧИ НА СЛЕДУЮЩЕЙ СТРАНИЦЕ

ВОЗВРАЩАЕМСЯ НА ПЕРВУЮ СТРАНИЦУ САЙТА


Прошу Вас, нажать на кнопки социальных сетей, на которых Вы зарегистрированы, чтобы поделиться прочитанной информацией на сайте с Вашими друзьями

Никнейм iraukr зарегистрирован!