Как настроить robots txt для WordPress

Как настроить robots.txt

Для начала давайте пару слов скажу, что такое robots txt, для чего он нужен и зачем нужно размещать его на сайте.

Файл robots txt — размещённый в корне сайта текстовый файл с набором инструкций, которые устанавливают ограничения на индексацию определённого типа контента для  роботов поисковых систем.

Проще говоря, robots txt указывает какой контент на сайте можно индексировать, а какой нет.

Не будем тянуть резину за хвост))), и для наглядного примера я предлагаю вам ознакомится с содержимым файла robots txt настроенным для сайта на WordPres.

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: dizwebs.ru
Sitemap: http://dizwebs.ru/sitemap.xml.gz
Sitemap: http://dizwebs.ru/sitemap.xml

Как я уже говорил выше, данный пример уже полностью настроен для сайтов на WordPress, и вам остаётся поменять значения только в последних трёх строчках кода. Вместо dizwebs.ru впишите адрес своего сайта. Чуть позже я поясню значение этих трёх строк. А сейчас пойдём по порядку с самого начала файла.

Ка видите данный файл robots txt состоит из двух частей. Первая часть относится ко всем поисковым роботам, а вторая к поисковым роботам яндекса. Наш яндекс очень требовательная поисковая система и требует к себе особого отношения)))

Строка User-agent:* — это обращение к поисковому роботу. Символ звёздочки ( * ) означает, что нижеследующие инструкции относятся к роботам всех поисковых систем, без разницы, будь то робот яндекса, google, рамблера или например yahoo. Так же следует отметить, что у каждой поисковой системы имеется несколько видов роботов. И каждый из них отвечает за поиск определённого контента — картинки, аудио, видео и так далее. И если бы мы в файле robots txt писали инструкции каждому роботу отдельно… Представляете какой списочек бы получился.

Инструкция Disallow: / говорит поисковому роботу, что всё что находится за слэшем, индексировать не надо. Если вы хоть раз подключались к своему сайту по ftp и видели его структуру изнутри, то скорее всего вы заметите, что в приведённом примере файла robots к индексации запрещены директории которые содержат служебную информацию, такую как темы оформления, админ панель, страница авторизации/регистрации и так далее.

Во второй половине файла, которая относится к поисковому роботу яндекса, пишите всё тоже самое и добавляете последние три строчки.

Деректива Host: говорит поисковому роботу, какое зеркало сайта считать основным.
А последние две строчки сообщает роботу где находится карта сайта. Эти инструкции нужно писать только в том случае, если у вас на вашем WordPress сайте установлен плагин Google XML sitemap. Если для создания карты сайта вы использовали какой нибудь другой плагин, то посмотрите в его настройках по какому адресу она находится, и вместо этих двух строчек напишите одну с вашим адресом. Ну а если у вас нет карты сайта, и по каким то причинам вы не хотите использовать на сайте плагин Google XML sitemap, который сделает её сразу же после того как вы его активируете, то последние две строчки не пришите. А то поисковые роботы подумают что вы их обманываете, обидятся, и перестанут заходить к вам на сайт (шутка).

Вот в принципе и всё, что я хотел рассказать сегодня о файле robots txt для WordPress.

Добавить комментарий