Что такое — robots.txt
Это файл — командир на сайте, к которому в первую очередь приходят для знакомства поисковые роботы: Яндекс, Yahoo, MSN, Ask, Рамблер, Aport, AOL, Alexa, Live, AOL, AltaVista, Alexa, Lycos, AOL, Мэйл.ру
robots.txt сообщает гостям – поисковикам, куда можно заходить на сайте, а куда нельзя, а так же сколько времени можно потратить на окончание загрузки одной страницы и началом загрузки следующей для скачивания информации с сервера. В этом файле так же указывается путь к карте сайта sitemap.xml
Короче, это текстовый файл, называемый robots.txt с инструкцией для поисковых роботов, находящийся в корневой директории сайта на хостинге.
Если на сайте можно индексировать все файлы, и никаких запретов для индексации нет, тогда делаем пустой файл robots.txt и вставляем в корневую директорию.
Для чего нужна индексация?
На сайте всегда имеется информация разной важности. Новые статьи — это важная информация, которая индексируется роботами как хорошая. А вот установленные плагины, которые не будут меняться после их установки — не особо важная. Поэтому нет смысла утруждать роботов каждый раз заглядывать в этот не изменяющийся раздел.
Поэтому, в директиве robots.txt мы сделаем отметку о запрещении каким бы — то ни было роботам заходить в этот отдел сайта.
Иногда бывает повторение информации, например я, дублирую заметки в страницы с одним и тем же текстом. Роботы считают это плагиатом и дают плохую характеристику сайту.
А нам это надо?
Конечно нет! Исходя из этого принципа мы и будем выстраивать свой robots.txt с такими запретами на индексацию, которые нам необходимы.
robots.txt у всех свой, но принцип построения общий. Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.
Директивы — указания robots.txt
Файл robots.txt может содержать следующие директивы для управления индексацией: User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param.
Директива ниже написана для бота Яндекса она запрещает индексацию wp-admin
User-agent: Yandex
Disallow: /wp-admin
Disallow
— это запретительная директива.
По общим правилам построения директив необходимо ставить хотя бы одну директиву Disallow, поэтому в отдельном случае пустую всё разрешающую директиву для всех ботов.
Параметрами данного оператора — директивы Disallow являются адреса папок или документов, которые нужно запретить к индексу. Они всегда начинаются с символа «/», т.к. он является адресом корневого каталога. Поэтому если вы хотите запретить к индексу все разделы сайта, то используйте:
Disallow: /
Примеры:
User-agent: *
Disallow: /wp-content/plugins — запрет индексации для всех ботов страниц с плагинами
User-agent: *
Disallow: /image/-запрет индексации для всех ботов картинок на сайте
User-agent: *
Disallow: — здесь всем ботам разрешена индексация без исключения
User-agent: *
Disallow: / — всем поисковикам запрещена всякая индексация
User-agent: Yandex
Disallow:
Host: www.site.ru
Только для робота Yandex есть специальная директива указывающая основное зеркало сайта: Host.
Директива host является корректной только для робота Яндекса.
К сведению, директиву ALLOW GOOGLEBOT не читает
Файл robots.txt ничего не разрешает, только запрещает!
Директива Sitemap — предназначена для указания роботу поисковой системы, в каком месте на хостинге лежит карта сайта. Формат карты сайта должен быть sitemaps.xml. Карта сайта нужна для более быстрой и полной индексации сайта. Причем карта сайта это не обязательно один файл, их может быть несколько. Формат записи директы:
Sitemap: http://seob.info/sitemaps1.xml
Sitemap: http://seob.info/sitemaps2.xml
Директива Host — указывает роботу основное зеркало сайта. Что бы не было в индексе зеркал сайта, всегда нужно указывать эту директиву. Если ее не указать, робот Яндекса будет индексировать как минимум две версии сайт с www и без. Пока робот зеркальщик их не склеит.
Спецсимвол * — заменяет любую последовательность символов. Он по умолчанию приписывается к концу каждого правила. Даже если вы его не прописали, ПС сами приставят.
Прошу Вас, нажать на кнопки социальных сетей, на которых Вы зарегистрированы, чтобы поделиться прочитанной информацией на сайте с Вашими друзьями