Делаем robots.txt для WordPress

Приветствую вас, друзья. Займемся мы сегодня составлением правильного файла Robots.txt для WordPress блога. Файл Robots является ключевым элементом внутренней оптимизации сайта, так как выступает в роли гида-проводника для поисковых систем, посещающих ваш ресурс.

Правильный robots.txt для wordpress

Содержание:

  • Зачем нужен файл robots.txt
  • Принцип работы файла robots
  • Как создать и проверить robots.txt
  • Robots.txt для WordPress
  • Дополнения и заблуждения

Само название файла robots.txt подсказываем нам, что он предназначен для роботов, а не для людей. В статье о том, как работают поисковые системы, я описывал алгоритм их работы, если не читали, рекомендую ознакомиться.

Зачем нужен файл robots.txt

Содержание

Представьте себе, что ваш сайт – это дом. В каждом доме есть разные служебные помещения, типа котельной, кладовки, погреба, в некоторых комнатах есть потаенные уголки (сейф). Все эти тайные пространства гостям видеть не нужно, они предназначены только для хозяев.

Аналогичным образом, каждый сайт имеет свои служебные помещения (разделы), а поисковые роботы – это гости. Так вот, задача правильного robots.txt – закрыть на ключик все служебные разделы сайта и пригласить поисковые системы только в те блоки, которые созданы для внешнего мира.

Примерами таких служебных зон являются – админка сайта, папки с темами оформления, скриптами и т.д.

Вторая функция этого файла – это избавление поисковой выдачи от дублированного контента. Если говорить о WordPress, то, часто, мы можем по разным URL находить одни и те же статьи или их части. Допустим, анонсы статей в разделах с архивами и рубриках идентичны друг другу (только комбинации разные), а страница автора обычного блога на 100% копирует весь контент.

Поисковики интернета могут просто запутаться во всем многообразии таких страниц и неверно понять – что нужно показывать в поисковой выдаче. Закрыв одни разделы, и открыв другие, мы дадим однозначную рекомендацию роботам по правильной индексации сайта, и в поиске окажутся те страницы, которые мы задумывали для пользователей.

Если у вас нет правильно настроенного файла Robots.txt, то возможны 2 варианта:

1. В выдачу попадет каша из всевозможных страниц с сомнительной релевантностью и низкой уникальностью.

2. Поисковик посчитает кашей весь ваш сайт и наложит на него санкции, удалив из выдачи весь сайт или отдельные его части.

Есть у него еще пара функций, о них я расскажу по ходу.

Принцип работы файла robots

Работа файла строится всего на 3-х элементах:

  • Выбор поискового робота
  • Запрет на индексацию разделов
  • Разрешение индексации разделов

1. Как указать поискового робота

С помощью директивы User-agent прописывается имя робота, для которого будут действовать следующие за ней правила. Она используется вот в таком формате:

После символа «#» пишутся комментарии, в обработке они не участвуют.

Таким образом, для разных поисковых систем и роботов могут быть заданы разные правила.

Основные роботы, на которые стоит ориентироваться – это yandex и googlebot, они представляют соответствующие поисковики.

2. Как запретить индексацию в Robots.txt

Запрет индексации осуществляется в помощью директивы Disallow. После нее прописывается раздел или элемент сайта, который не должен попадать в поиск. Указывать можно как конкретные папки и документы, так и разделы с определенными признаками.

Если после этой директивы не указать ничего, то робот посчитает, что запретов нет.

Для запрета файлов указываем путь относительного домена.

Запрет разделов осуществляется аналогичным образом.

Если нам нужно запретить разные разделы и страницы, содержащие одинаковые признаки, то используем символ «*». Звездочка означает, что на ее месте могут быть любые символы (любые разделы, любой степени вложенности).

Обратите внимание, что на конце правила звездочка не ставится, считается, что она там есть всегда. Отменить ее можно с помощью знака «$»

Выражения можно комбинировать, например:

3. Как разрешить индексацию в Robots.txt

По-умолчанию, все разделы сайта открыты для поисковых роботов. Директива, разрешающая индексацию нужна в тех случаях, когда вам необходимо открыть какой-либо кусочек из блока закрытого директивой disallow.

Для открытия служит директива Allow. К ней применяются те же самые атрибуты. Пример работы может выглядеть вот так:

Теорию мы изучили, переходим к практике.

Как создать и проверить Robots.txt

Проверить, что содержит ваш файл на данный момент можно в сервисе Яндекса — Проверка Robots.txt. Введете там адрес своего сайта, и он покажет всю информацию.

Kак создать и проверить robots.txt

Если у вас такого файла нет, то необходимо срочного его создать. Открываете текстовый редактор (блокнот, notepad+, akelpad и т.д.), создаете файл с названием robots, заполняете его нужными директивами (ниже я расскажу, как выглядит правильный код для WordPress) и сохраняете с txt расширением.

Дальше, помещаем файл в корневую папку вашего сайта (рядом с index.php) с помощью файлового менеджера вашего хостинга или ftp клиента, например, filezilla.

Если у вас WordPress и установлен All in One SEO Pack, то в нем все делается прямо из админки, в этой статье я рассказывал как.

Robots.txt для WordPress

Под особенности каждой CMS должен создаваться свой правильный файл, так как конфигурация системы отличается и везде свои служебные папки и документы.

Мой файл robots.txt имеет следующий вид:

Первый блок действует для всех роботов, так как в строке User-agent стоит «*». Со 2 по 9 строки закрывают служебные разделы самого вордпресс. 10 – удаляет из индекса страницы RSS ленты. 11 – закрывает от индексации авторские страницы.

По последним требованиям поисковиков, необходимо открыть доступ к стилям и скриптам. Для этих целей в 12, 13 и 14 строках прописываем разрешение на индексирование папки с шаблоном сайта, плагинами и Java скриптами.

Дальше у меня идет 2 блока, открывающих доступ к папке с картинками роботам YandexImages и Googlebot-Image. Можно их не выделять отдельно, а разрешающую директиву для папки с картинками перенести выше на 15 строку, чтобы все роботы имели доступ к изображениям сайта.

Если бы я не использовал All-in-One-Seo-Pack, то добавил бы правило, закрывающее архивы (Disallow: */20) и метки (Disallow: */tag).

При использовании стандартного поиска по сайту от WordPress, стоит поставить директиву, закрывающую страницы поиска (Disallow: *?s=). А лучше, настройте Яндекс поиск по сайту, как это сделано на моем блоге.

Обратите внимание на 2 правила:

1. Все директивы для одного робота идут подряд без пропуска строк.

2. Блоки для разных роботов обязательно разделяются пустой строкой.

В самом конце есть директивы, которые мы ранее не рассматривали – это host и sitemap. Обе эти директивы называют межсекционными (можно ставить вне блоков).

Host – указывает главное зеркало ресурса. Обязательно стоит указать какой домен является главным для вашего сайта – с www или без www. Если у сайта есть еще зеркала, то в их файлах тоже нужно прописать главное. Данную директиву понимает только Яндекс.

Sitemap – это директива, в которой прописывается путь к XML карте вашего сайта. Ее понимают и Гугл и Яндекс.

Дополнения и заблуждения

1. Некоторые вебмастера делают отдельный блок для Яндекса, полностью дублируя общий и добавляя директиву host. Якобы, иначе yandex может не понять. Это лишнее. Мой файл robots.txt известен поисковику давно, и он в нем прекрасно ориентируется, полностью отрабатывая все указания.

2. Можно заменить несколько строк, начинающихся с wp- одной директивой Disallow: /wp-, я не стал такого делать, так как боюсь – вдруг у меня есть статьи, начинающиеся с wp-, если вы уверены, что ваш блог такого не содержит, смело сокращайте код.

3. Переиндексация файла robots.txt проходит не мгновенно, поэтому, ваши изменения поисковики могут заметить лишь спустя пару месяцев.

4. Гугл рекомендует открывать доступ своим ботам к файлам темы оформления и скриптам сайта, пугая вебмастеров возможными санкциями за несоблюдение этого правила. Я провел эксперимент, где оценивал, насколько сильно влияет это требование на позиции сайта в поиске — подробности и результаты эксперимента тут.

biznessystem.ru

Здравствуйте, дорогие читатели моего блога!

Сегодня я Вам расскажу о том, как составить правильный robots.txt для WordPress.

Многие новички в блоггинге совершают одну очень важную ошибку: они забывают составлять, или составляют неправильно очень важный файл, который называется robots.txt.

Зачем нужен robots.txt?

robots.txt для WordPressПлатформа WordPress является очень удобной платформой, однако у нее имеется ряд недостатков. Самым главным из которых является дублирование контента.

Вот смотрите, если вы опубликовали статью, то она появляется сразу на нескольких страницах и может иметь разные адреса (урлы).

Статья появляется на главной странице, в архиве, в рубрике, в ленте RSS, в поиске и т.д.

Так вот, если на блоге появляется несколько статей с одинаковым содержанием и различными адресами, то это называется дублирование контента.

Это все равно, что скопировать контент с чужого блога и вставить на свой. Эти статьи будут неуникальными.

За такие действия поисковые системы однозначно наложат на блог санкции в виде всеми любимого фильтра АГС.

Чтобы избежать дублирования контента на платформе wordpress, необходимо использовать некоторые обязательные мероприятия. Одним из которых является запрет индексации поисковыми системами тех разделов блога, на которых дубли создаются ввиду особенностей самой платформы.

Как раз robots.txt позволяет нам исключить из индекса поисковиков подобные страницы.

Кроме этого в корне блога содержатся различные служебные каталоги (например, для хранения файлов), которые тоже желательно исключать из индекса.

Как составить правильный robots.txt для WordPress?

Перед тем как приступить к составлению этого файла, нам необходимо знать основные правила его написания – директивы.

1. Директива User-agent

Эта директива определяет, какому именно поисковому роботу следует выполнять команды, которые будут указаны далее.

Например, если Вы хотите запретить индексацию чего-либо поисковому роботу Яндекса, то следует для этой директивы задать следующий параметр:

User-agent: Yandex

Если Вы хотите дать указание всем без исключения поисковым системам, то директива будет выглядеть следующим образом:

User-agent: *

В случае с рунетом, особые указания необходимо задать для Яндекса, а для роботов остальных поисковых систем подойдут общие, которые мы зададим так:

User-agent: *

2. Следующими директивами являются «Allow» и «Disallow».

Allow – разрешает индексацию указанных в ней элементов.

Disallow – соответственно запрещает индексацию.

Правильный robots.txt должен обязательно содержать директиву «Disallow».

Если написать так:

User-agent: Yandex

Disallow:

То мы разрешим индексацию поисковому роботу Яндекса всего блога полностью.

Если написать так:

User-agent: Yandex

Disallow: /

То запретим Яндексу индексировать весь ресурс.

Таким образом, мы можем разрешать или запрещать индексацию своего блога отдельным или всем роботам.

Например:

User-agent: *

Disallow:

User-agent: Yandex

Disallow: /

Здесь мы разрешили индексирование всем поисковикам, а Яндексу запретили. Надеюсь, это понятно.

Теперь нам необходимо знать, что именно следует запретить для индексации в WordPress, то есть какие разделы могут содержать дубли страниц и другой мусор.

1. все системные и служебные файлы:

— wp-login.php

— wp-register.php

— wp-content/

— wp-admin/

— wp-includes/

Отдельно хочу сказать про каталог wp-content. В принципе, все содержимое в нем необходимо закрыть, за исключением папки «uploads» в которой располагаются изображения. Потому что, в случае запрета индексирования «uploads», ваши картинки на блоге индексироваться не будут.

Еще по теме:   Как установить cms Wordpress на хостинг?

Поэтому будем закрывать каталоги, размещенные внутри папки «wp-content» отдельно:

Disallow: /wp-content/themes

Disallow: /wp-content/plugins

Disallow: /wp-content/languages

Disallow: /wp-content/cache

Если в каталоге «wp-content» Вашего блога есть еще какие-либо папки, то можно (и даже нужно) их закрыть (за исключением «uploads»).

2. Дубли страниц в категориях:

— category/*/*

3. RSS ленту:

— feed

4. Дубли страниц в результатах поиска:

— *?*

— *?

5. Комментарии:

— comments

6. Трэкбэки:

— trackback

Я не буду описывать структуру WordPress, а выкладываю Вам свой файл robots.txt, который установлен на моем блоге. Я считаю, что он наиболее правильный. Если Вы найдете в нем какие-либо недочеты, то просьба написать об этом в комментариях.

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/cache
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

Здесь же нужно задать отдельные указания Яндексу:

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/cache
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: mysite.ru
Sitemap: http://mysite.ru/sitemap.xml
Sitemap: http:// mysite.ru/sitemap.xml.gz

Если Вы не составляли файл robots.txt или сомневаетесь в правильности его составления, советую Вам использовать этот.

Для этого необходимо создать обычный текстовый документ, скопировать весь текст, представленный выше, вставить его в свой файл. Затем сохранить его под именем: robots.txt (первая буква не должна быть заглавной).

Не забудьте поменять mysite.ru на свой.

После создания файл robots.txt необходимо разместить в корне блога, затем добавить его в панель вебмастера Яндекса.

Рекомендую Вам посмотреть видео, посвященное дублированию контента:

Еще пару слов о дублировании контента. Тэг «More»

Дело в том, что у нас на главной странице блога (mysite.ru) тоже выводятся статьи.

При нажатии на заголовок поста, мы переходим на его страницу (mysite.ru/…./….html). Таким образом, часть поста (та, что на главной) является дублем такой же части текста основной статьи.

Закрыть от индексации здесь ничего нельзя. Поэтому рекомендую Вам выводить на главную страницу как можно меньше текста основной статьи.

А именно приветствие и небольшой анонс.

Пример Вы можете посмотреть у меня на главной странице (анонс к этой статье).

Тег more

Для этого используется тэг more.

Проще говоря: набрали небольшой фрагмент (приветствие и анонс), который будет выведен на главную, перешли в редактор HTML и вставили следующий код:

<!- -more- ->

Тэг more

И продолжаете дальше писать статью.

Тэг more

Вся часть текста, расположенная перед тэгом more, будет выведена на главную страницу.

Рекомендую посмотреть видео: «Что такое Robots.txt?»:

На этом у меня все. Обязательно создайте правильный robots.txt для WordPress!

С уважением, Александр Бобрин

asbseo.ru

О том, как сделать правильный robots.txt для WordPress написано уже достаточно. Однако, чтобы угодить своим читателям, я решил опубликовать свой пост на эту тему. Тем более, что моими коллегами эта тема раскрыта не полностью и тут можно многое добавить.

Правильный robots.txt для WordPress

Что такое robots.txt и зачем он нужен?

robots.txt это текстовый документ, составленный в обыкновенном блокноте, расположенный в корневой директории блога и содержащий в себе инструкции по индексации для поисковых роботов. Проще говоря, что индексировать, а что нет. Наличие этого файла является обязательным условием для качественной внутренней поисковой оптимизации блога.

Как известно, блоги на платформе WordPress содержат в себе множество дублей (копий основного содержимого блога), а также целый набор служебных файлов. Дубли контента снижают его уникальность на домене и поисковые роботы могут наложить на блог серьезные штрафные санкции.

Чтобы повысить уникальность контента, облегчить поисковым ботам работу и тем самым улучшить качество индексации блога, нам и нужен robots.txt.

robots.txt для WordPress

Правильный robots.txt для WordPress

Рассмотрим на примере моего robots.txt, как его правильно оформить и что в него должно входить.

Скачайте его себе на жесткий диск по этой ссылке и откройте для редактирования. В качестве редактора текстовых файлов настоятельно рекомендую использовать Notepad++.

Правильный robots.txt для WordPress

Строки 6,7: Принято считать, что необходимо закрывать поисковым роботам доступ к служебным файлам в папках «wp-content» и «wp-includes». Но, Гугл по этому поводу нам говорит следующее:

Чтобы обеспечить правильное индексирование и отображение страниц, нужно предоставить роботу Googlebot доступ к JavaScript, CSS и графическим файлам на сайте. Робот Googlebot должен видеть ваш сайт как обычный пользователь. Если в файле robots.txt закрыт доступ к этим ресурсам, то Google не удастся правильно проанализировать и проиндексировать содержание. Это может ухудшить позиции вашего сайта в Поиске.

Таким образом, для Googlebot не рекомендуется запрещать доступ к файлам в этих папках.

Строка 40: С весны 2018 года директива «Host», указывающая главное зеркало сайта Яндексу, больше не действует. Главное зеркало для нашей поисковой системы теперь определяется только через 301 редирект.

Строки 42,43: Если у Вас еще не создана карта сайта, обязательно сделайте ее. В пути к файлам карты вместо моего адреса wordpress-book.ru пропишите свой. Этот ход сделает индексацию блога поисковиками полной и увеличит ее скорость.

Уже сейчас, можно сказать, что ваш правильный robots.txt для WordPress готов. В таком виде он подойдет для абсолютного большинства блогов и сайтов. Останется только закачать его в корень блога (обычно в папку public_html).

robots.txt

Сделать robots.txt для блога можно и с помощью плагина, например, PC Robots.txt. С его помощью вы сможете создать и редактировать свой robots.txt прямо в админке блога. Но я не советую использовать плагины для создания robots.txt, чтобы исключить лишнюю нагрузку на блог.

Содержание robots.txt любого блога или сайта, если он конечно есть, вы всегда можете посмотреть. Для этого достаточно в адресной строке браузера ввести к нему путь – https://wordpress-book.ru/robots.txt.

Ниже приведена информация по содержанию этого документа и некоторые рекомендации по его оформлению и анализу.

Звездочка «*», прописанная в тексте robots.txt, означает, что на ее месте допускается последовательность любых символов.

Директива «User-agent» определяет, для каких поисковых роботов даны указания по индексации, прописанные под ней. Таким образом, «User-agent: *» (строка 1) указывает, что инструкции, прописанные под ней, предназначены для всех поисковых систем.

Строка 21: Персонально для Яндекса под «User-agent: Yandex» дублируем список этих команд. Дублирование инструкций для Яндекса дает нам гарантию их выполнения поисковой системой.

Директива «Disallow» запрещает индексацию прописанного для нее каталога или страниц. Директива «Allow» разрешает. Командой «Disallow: /wp-content/» (строка 7) я запретил индексацию служебного каталога «wp-content» на сервере и соответственно всех папок в ней с их содержимым, но командой «Allow: /wp-content/uploads» (строка 8) разрешил индексировать все картинки в папке «upload» каталога «wp-content». Так как «Allow» является приоритетной директивой для поисковых роботов, то в индекс попадут только изображения папки «upload» каталога «wp-content».

Для директивы «Disallow» имеет смысл в некоторых случаях дополнительно прописывать следующие запреты:

  • — /amp/ — дубли ускоренных мобильных страниц. На всякий случай для Яндекса.
  • — /comments — закрыть от индексации комментарии. Зачем закрывать содержащийся в комментариях уникальный контент? Для большей релевантности ключевых слов и неиндексации исходящих ссылок в комментариях. Вряд ли это поможет.
  • — /comment-page-* — другое дело древовидные комментарии. Когда комментарии не помещаются на одну страницу (их количество вы проставили в настройках админки), создается дубль страницы типа wordpress-book.ru/…/comment-page-1. Эти дубли конечно же надо закрывать.
  • — /xmlrpc.php — служебный файл для удаленных вызовов. У меня его нет и соответственно нет индексации и без запрета.
  • — /webstat/ — папка со статистикой сайта. Эта папка есть тоже далеко не у всех.

Нельзя не упомянуть про редко используемую, но очень полезную директиву для Яндекса — «Crawl-delay». Она задает роботу паузу во времени в секундах между скачиванием страниц, прописывается после групп директив «Disallow» и «Allow» и используется в случае повышенной нагрузки на сервер. Прописью «Crawl-delay: 2» я задал эту паузу в 2 секунды. При нормальной работе сервера качество индексации не пострадает, а при пиковых нагрузках не ухудшится.

Некоторым веб-мастерам может понадобится запретить индексацию файлов определенного типа, например, с расширением pdf. Для этого пропишите — «Disallow: *.pdf$». Или поместите все файлы, индексацию которых требуется запретить, в предварительно созданную новую папку, например, pdf, и пропишите «Disallow: /pdf/».

При необходимости запрета индексации всей рубрики, такое бывает ,например, при публикации в нее чужих интересных записей, пропишите — «Disallow: /nazvanie-rubriki/*», где «nazvanie-rubriki», как вы уже догадались — название рубрики, записи которой поисковикам индексировать не следует.

Тем, кто зарабатывает на своем блоге размещением контекстной рекламы в партнерстве с Google AdSense, будет нелишним прописать следующие две директивы:

Это поможет роботу AdSense избежать ошибок сканирования страниц сайта и подбирать для них более релевантные объявления.

wp-content/uploads/2014/02/YouTube_Downloader_dlya_Ope.jpg»,tid: «OIP.M3a4a31010ee6a500049754479585407do0

Обнаружил у себя только что вот такой вот новый вид дублей в Яндекс Вебмастере. 96 штук уже накопилось и это не предел. А ведь совсем недавно у wordpress-book.ru с дублями был полный порядок. Есть подозрение, что шлак с идентификатором tid:»OIP появляется в индексе поисковика после скачивания картинок роботом Яндекса. Если не лень, посмотрите сколько таких несуществующих страниц разных сайтов уже участвуют в поиске.

Понятно, что с этим чудом надо что-то делать. Достаточно добавить запрещающую директиву — «Disallow: /wp-content/uploads/*.jpg*tid*» в robots.txt. Если на сайте есть картинки png, gif и т.д., добавьте директивы с соответствующими расширениями изображений.

При редактировании robots.txt, учтите, что:

— перед каждой новой директивой «User-agent» должна быть пустая строка, которая обозначает конец инструкций для предыдущего поисковика. И соответственно после «User-agent» и между «Disallow» и «Allow» пустых строк быть не должно;

— запретом индексации страниц в результатах поиска «Disallow: /*?*» вы заодно можете случайно запретить индексацию всего контента, если адреса страниц вашего блога заданы по умолчанию со знаком вопроса в виде — /?p=123. Советую сделать для адресов ЧПУ (человеко понятные урлы :-)). Для этого в настройках постоянных ссылок выберите произвольный шаблон и поставьте плагин Rus-to-Lat.

Анализ robots.txt

Теперь, когда ваш robots.txt отредактирован и залит на сервер, остается только проверить, правильно ли он работает.

Зайдите в свой аккаунт Яндекс Вебмастер и перейдите «Настройки индексирования» → «Анализ robots.txt». Нажмите на кнопку «Загрузить robots.txt с сайта» и далее на кнопку «Проверить».

Анализ robots.txt

Если Яндексу понравится ваш файл, под кнопкой «Проверить» появится сообщение, примерно как на картинке выше.

Недавно в инструментах для веб-мастеров Гугла появилось очень полезная функция — «Инструмент проверки файла robots.txt«. Можно проверить свой файл на наличие ошибок и предупреждений.

Просто в своем аккаунте перейдите «Сканирование» → «Инструмент проверки файла robots.txt«.

Через некоторое время, когда бот Яндекса скачает ваш robots.txt, проанализируйте в Яндекс Вебмастере адреса страниц вошедших в индекс и исключенных из него в robots.txt. Вошедшие в индекс дубли срочно запрещайте к индексации.

Теперь ваш robots.txt для WordPress правильный и можно поставить еще одну галочку под пунктом выполнения задач по внутренней поисковой оптимизации блога.

robots.txt запретить индексацию всем

При создании тестового блога или при самом его рождении, если вы хотите полностью запретить индексацию сайта всеми поисковыми системами, в robots.txt должно быть прописано всего лишь следующее:

User-agent: *
Disallow: /

wordpress-book.ru

Для чего использовать robots.txt?

Перед тем как приступать к созданию и наполнению давайте разберем саму суть данного файла.

Ваш сайт это набор файлов и папок, некоторые из которых нужно защитить от чтения от сторонних глаз, которыми являются так же и поисковые роботы, пришедшие прочитать и запомнить наш контент, для дальнейшей выдачи в поиске.

Чем занимается поисковой робот на сайте?

Итак, к примеру ваш сайт посетил поисковой робот, что он делает в первую очередь? Во-первых пытается найти уникальную информацию, которую сможет занести в свою базу данных. Если роботс отсутствует, а именно к нему в первую очередь обращается робот, тогда он начинает «читать» файлы находящиеся в корне сайта, что конечно же нам не очень понравиться, ведь он не только не найдет там нужную ему информацию, а и прочитает наши данные настроек, которые созданы для нашей личной цели. Именно для этого и существует robots.txt. Он дает указания роботу куда ходить нужно, а куда заглядывать не стоит.

Еще по теме:   Как подобрать ключевые слова для сайта

Создание и размещение файла на сайте WordPress.

Для того что бы создать путеводитель для роботов, вам потребуется обычный блокнот windows, в котором вы будете прописывать нужные команды для поисковых роботов. После этого нужно сохранить файл в формате «txt», под названием «robots». На этом создание завершено, далее в статье мы рассмотрим какие же команды должны находиться в robots.txt для WordPress.

Где размещать?

Robots.txt размещается на вашем хостинге, непосредственно в корневой папке сайта, куда мы перенесли наш сайт. Теперь поисковой робот перед тем как лазить по нашему сайту, сначала спросит разрешение куда ему можно, а куда запрещено заходить.

Важно: при размещении документа в подкаталогах, роботы не смогут найти этот файл.

Правильное размещения файла robots.txt

Зайдя к вам на сайт робот заходит смотрит предназначеную для него «инструкцию» и начинает его изучать. Изучив до конца он пойдет по выбранному вами пути индексации, и будет игнорировать те директории, папки и URL к которым вы запретили обращаться.

Что включает в себя роботс?

Robots.txt несет в себе информативные данные для поисковых роботов и включает в себя такие основные «команды»:

User-agent

Указывает на имя потенциального робота посетителя. Синтаксис «User-agent: *» будет означать что данным командам должны следовать все роботы. Варианты для отдельных роботов рассматривать не будем, их очень много. По этому для примера будет только два варианта (для всех роботов и отдельно для Яндекс).

Disallow

Команда для роботов, рассказывающая о том куда ходить не стоит, запрещает чтение указанных адресов и файлов.

Allow

Команда которая рекомендует «направление» на индексирования данного адреса или файла.

Host

Данная команда указывает роботу, какой из вариантов сайта будет нашим главным зеркалом сайта.

Sitemap

Место нахождения xml карты сайта по которой должен пробежаться посетивший нас робот, в той части за которой он пришел (контент сайта).

yrokiwp.ru

Зачем нужен robots.txt

Правила написанные в robots.txt нужны исключительно поисковым роботам, что бы понять, какие страницы, разделы, файлы сайта посещать и индексировать, а какие нет.

У каждой поисковой системы (Google, Yandex и другие) есть роботы для мониторинга сайта, которые руководствуются алгоритмами обхода страниц сайта и индексирования. Настройки индексирования сайта и мониторинг осуществляется в Search Console у Google и Яндекс Вебмастер у Яндекса. Там же можно проверить правильность файла robots.txt, «скормить» поисковой системе карту сайта sitemap.xml, посмотреть результаты индексирования и многое другое.

Как происходит обход страниц со стороны поисковых систем я надеюсь понятно, а вот со стороны сайта файл robots.txt дает инструкции роботам поисковых систем, на какие странички переходить и индексировать, а какие нет.

Суть работы robots.txt
Суть работы robots.txt

Стоит также учитывать настройки дополнительного софта — плагинов, которые могут прямо влиять на индексирование сайтов, например такие популярные плагины WordPress, как All in One SEO или Yoast SEO и другие.

Настройки плагинов могут противоречить инструкциям в robots.txt, могут быть ссылки с других сайтов на запрещенную к индексированием страницу и поисковый робот будет действовать на свое усмотрение.

Это означает, что поисковая система не будут строго руководствоваться инструкциями robots.txt, например робот Google обойдет и проиндексирует все что захочет, если посчитает нужным.

Google индексирует запрещенную в robots.txt запись
Google индексирует запрещенную в robots.txt запись

Базовая настройка robots.txt

У каждой поисковой системы есть рекомендации по настройке robots.txt и желательно с ними ознакомится, Google и Яндекс.

Идея правильного формирования robots.txt заключается в том, что бы дать поисковым системам правильное представление контента сайта, так, как видят его пользователи, скрыв при этом не нужную системную информацию, страницы дубли(пагинацию), поисковые запросы со страниц сайта, данные о пользователях(если это нужно), метки, отчеты и прочее.

Я изучил документацию, прочел рекомендации многих известных блогеров, тематических форумов, туториалы плагинов и могу сделать вывод, что для свежеустановленного сайта на WordPress достаточно базовых настроек. А дальше уже каждый веб-мастер дописывает инструкции в robots.txt под нужды данного конкретного сайта, охватить все возможные случаи не возможно, главное понять «как это работает», что бы дописать robots.txt «под себя», но и при базовых настройках, сайт на WordPress будет нормально функционировать.

Структура robots.txt

Условно файл можно разделить на четыре секции.

  1. User-agent: к какому поисковому роботу относятся инструкции.
  2. Disallow: и Allow: блок правил запрещающих и разрешающих.
  3. Host: инструкция для Яндекса.
  4. Sitemap: расположение карты сайта.

Рекомендации Clearfy

Неплохой базовый вариант, который предлагает плагин Clearfy, он не лишен недостатков, но его не сложно доработать под свои нужды добавив несколько инструкций.

Пояснения по robots.txt

  1. User-agent: * Пояснения, какому именно поисковому роботу адресуются заданные правила. Например для Google — «User-agent: Googlebot», для Яндекса — «User-agent: Yandex» и тд. В этом случае создаются секции правил для каждого поискового робота отдельно. В нашем же случае задано «User-agent: *», и дальнейшие правила заданны для всех поисковых роботов одновременно.
  2. Правило Disallow: /wp-admin, Disallow: /wp-includes, Disallow: /wp-content/plugins, Disallow: /wp-content/cache, запретить обход вышеназванных каталогов. Не самый элегантный и верный способ реализации.
  3. Правило Disallow: /xmlrpc.php. Файл xmlrpc.php нужен для удаленного управления WordPress и индексировать его не нужно.
  4. Правило Disallow: /readme.html. Файл readme.html — это туториал WordPress, индексировать его не нужно.
  5. Правила Disallow: /*? и Disallow: /?s= закрывают страницы поисковых запросов.
  6. Правила Allow: /*.css и Allow: /*.js указание роботу обязательно перейти на страницы css и js. Нужно для того, что бы поисковые системы правильно формировали страницы, подключая стили и скрипты. Если этого не сделать, будут ошибки в Google Search Console.
  7. Правило Host: https://sergei-loginov.com. Указываем главное зеркало сайта. Что бы поисковая система Яндекс понимала, какая версия сайта является основной: с https или http, с www или без www.
  8. Правило Sitemap: https://sergei-loginov.com/sitemap.xml указывает роботам, где находится XML версия карты сайта. Если бы я использовал сжатую версию карты сайта, то нужно было бы дописать правило и для сжатой версии сайта Sitemap: https://sergei-loginov.com/sitemap.xml.gz. Если карт несколько, нужно прописать путь к каждой.

С таким robots.txt ваш WordPress сайт будет нормально индексироваться роботами поисковых систем. Но данный файл далеко не идеален, нужно его усовершенствовать.

Оптимизация robots.txt

  1. Disallow: /cgi-bin закрываем каталог /cgi-bin, в них обычно находятся скрипты веб-сервера, у меня они в другом месте и папка пуста, но отдадим почтение классике и блогу wp-kama.
  2. Disallow: /?, Disallow: *?s=, Disallow: *&s=, Disallow: /search/ закрываем поиск на сайте для индексирования.
  3. Disallow: /wp-, Disallow: /wp/ закрываем каталог /wp/ если он есть, и все файлы каталога wp-, ниже мы откроем для поисковых роботов только нужные файлы.
  4. Disallow: */feed, Disallow: */rss, Disallow: */embed закрываем rss ленты, фиды и встраивания. Я использую rss ленту и скармливаю Яндексу, адрес ленты https://sergei-loginov.com/feed/turbo/, следовательно мне не нужно закрывать фиды.
  5. Disallow: */trackback закрываем трекбэки.
  6. Disallow: /author/ закрываем архивы автора и Disallow: /users/ авторов.
  7. Allow: /*/.js, Allow: /*/.css открываем js-скрипты и css-файлы внутри /wp- (/*/ — для приоритета).
  8. Добавляем правила обхода мультимедиа контента, того, что используете: Allow: /wp-*.png, Allow: /wp-*.jpg, Allow: /wp-*.jpeg, Allow: /wp-*.gif, Allow: /wp-*.svg, Allow: /wp-*.pdf, Allow: */uploads.
  9. Нужно добавить дополнительную секцию для Яндекса, другие поисковики не понимают директиву Host.

Резюмируя

Хотите узнать больше о robots.txt? Есть сайт посвященный этой тематике, там в нюансах и подробностях систематизирована информация, разобраны ошибки, которые часто допускают веб-мастера.

Не забывайте о мануалах поисковых систем, ссылки в начале статьи. А также о проверке robots.txt и карты сайта в консолях поисковых систем.

sergei-loginov.com

Как создать файл robots.txt для wordpress.

Файл robots.txt, так же, как и карта сайта sitemap.xml, предназначены для управления индексацией. Первым делом правильно пропишем в файле robots.txt правила для поисковиков. А затем добавим папку с файлом в корневой каталог. Делается это легко на раз два. И тогда робот будет подчиняться Вашим правилам. А именно, он поймет, что ему индексировать, а что не стоит. Вы сами пропишите эти правила. Безусловно, это повлияет на успешное продвижение сайта.

Нужно понимать, что не все файлы, находящиеся на блоге или в корневом каталоге нужно индексировать поисковыми системами. Разберем этот вопрос по- подробней. Корневой каталог это не что иное, как основная папка вашего сайта со всеми файлами, будь то видео аудио и картинки , то есть все до последнего файла, находящегося на Вашем блоге(его содержимое). В зависимости от того какой у Вас хостинг, это будет или httpdocs или public_html. Но суть одна. Запомните это!

Все блоги и сайты на wordpress имеют папки и файлы, обусловленные самим движком. Кто не знает что такое движок, поясняю. Движок- это конструктор хоста или хостинга. Или по другому, это система управления хостингом. Вот пример. Система управления хостингом TimeWeb — есть WordpRess. Другими словами -это огромный конструктор без которого Вы не сможете работать на хостинге. Конструкторы или движки бывают разные, но WordPress наиболее известный и популярный.

Идем дальше. В каталоге есть папки wp-admin и wp-includes, которые не несут никакой ценности и для читателей и поисковых систем. Они нужны для работы самого конструктора. Их не нужно индексировать.

Поисковые роботы, зайдя на Ваш сайт будут индексировать все подряд.

Поэтому им нужно указать, что индексировать, а что не нужно. Теперь понимаете, для чего нам нужен файл robots.txt. А как запретить роботам индексацию, иначе поисковые роботы, зайдя на ваш ресурс, будут индексировать все, что попадется на их пути.

Дело в том, что лимит есть и у поисковых систем. Оставив без внимания настройку файла robots.txt Вы рискуете обрасти дублированным контентом и быть не проиндексированными там где это необходимо. Поисковики этого очень не любят и как следствие наложение фильтра на Ваш сайт или АГС. То есть Ваш сайт попадает в черный список неблагонадежных из за нерадивого хозяина.

Где появляются дубли страниц? Дублями страниц в wordpress в основном выступают рубрики, архивы и метки. Если их не закрывать от индекса, тогда их расплодится очень много и со стремительной скоростью. Чтобы этого не случилось для движка wordpress существует плагин поисковой оптимизации All In One SEO Pack. Он при правильной его настройке предотвращает все неприятности связанные с этим явлением как дубли.

Еще очень Важно!!! Если Вы добавляете в корень сайта (каталог) папки с файлами, в которых много внешних ссылок или скриптов, тогда нужно не забывать их обязательно закрывать от индексации в файле robots.txt. Читем дальше, как это сделать легко и просто.

Настройка robots.txt

Robots.txt это обычный файл txt он составляется в обычной программе блокнот или в текстовом редакторе notepad++ и включает несколько важных директив. Первая самая важная User-agent. Это попросту говоря обращение к поисковому роботу. Чтобы обратиться ко всем поисковым роботам, которые будут заходить к вам на блог необходимо в самом начале документа прописать эту фразу :

User-agent: *

Далее идет директива, без которой не может обходится ни один файл robots.txt и она прописывается так: Disallow.

Директива Disallow это значит запретить, а директива Allow:/ разрешить

И так наш документ имеет такой вид:

Disallow:
Добавим к Disallow правый слэш «/»:

И документ выглядит так:

User-agent: *
Disallow: /

Это означает запрет всем поисковым системам индексировать Ваш сайт.

Но весь сайт запрещать индексировать не нужно, иначе, зачем нам такой сайт.

Поэтому внимательно прописываем запрет только тех папок, которые индексировать мы не хотим. Например, папка wp-admin

Тогда прописываем следующее:

User-agent: *
Disallow: /wp-admin

Друзья, я Вас долго не буду мучить и дам Вам правильный файл robots.txt для wordpress, рекомендуемый разработчиками. Но сначала дочитайте статью до конца.

А сейчас рассмотрим еще очень важную директиву Host. Эта директива Host -предназначена только для поисковика Яндекс. Дело в том, что это правило придумал сам Яндекс. Поисковая система Яндекс имеет большой вес в русскоязычном интернете и это явилось важным фактором или капризом. Но это должно выполняться и все без возражений и обсуждений.

Еще по теме:   Что такое таксономия

Также Яндекс требует выделить отдельный блок для себя и выглядит он так:

User-agent: Yandex

Уясните это к сведению), что во избежание неправильной индексации блога или сайта, директива Host прописывается для Яндекса.

Она указывает на основное зеркало ресурса, то есть адрес по которому будет доступен Ваш сайт:

proverka_zerkala sate

Другие поисковики не понимают директиву Host!

И так для Яндекса этот блок в файле robots.txt должен выглядеть так:

User-agent: Yandex Disallow: Host: www.sait.ru  или User-agent: Yandex Disallow: Host: sait.ru

Рассмотрим последнюю директиву, которую включает правильный robots.txt для wordpress. Она имеет знакомое название, sitemap.

Это не что иное, как карта сайта для роботов или sitemap.xml У меня по этому поводу есть статья. Читать Sitemap.xml — создаём карту сайта для роботов.

Эта важная директива Sitemap, которая указывает роботам на место, где расположена карта Вашего сайта. Она прописывается отдельно от предыдущих директив один раз. Ее понимают все поисковые роботы без исключения и такой главный робот как Google. Это выглядит так:

Sitemap: http://ваш сайт.ru/sitemap.xml или в моем в моем случае Sitemap: http://ritabk.ru/sitemap.xml или http://ritabk.ru/sitemap.xml.gz

Мы тут рассмотрели основные директивы, которые нужно использовать в правильном robots.txt

Пример правильного файла robots.txt. У меня это так:

User-agent: *
Allow: /
Disallow: /jexr
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: */feed
Disallow: /trackback
Disallow: */trackback
Disallow: /category/*/*
Disallow: */comments
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: */feed
Disallow: /trackback
Disallow: */trackback
Disallow: /category/*/*
Disallow: */comments
Host: ritabk.ru
Sitemap: http://ritabk.ru/sitemap.xml

Смело копируйте, только впишите свое доменное имя.

Вот этот пункт, Disallow: /jexr/( который выделен желтым) вставляете если у Вас на блоге установлен плагин (J) ExR

Выводы:

Что необходимо скормить поисковым роботам в первую очередь для индексации- конечно это Ваш уникальный контент. Что Вы получаете?

Ваш блог на wordpress будет правильно и быстро индексироваться. И не одна Ваша статья не останется без внимания. Поисковые роботы не будут тратить время на не нужный контент.

Я изучала и сравнивала множество файлов robots.txt на разных блогах wordpress. Они все примерно одинаковы.

Как проверить и посмотреть, как выглядит robots.txt с другого ресурса, нужно прописать в строке браузера, после доменного имени через слеш (/) файл /robots.txt.

Пример: ritabk.ru/robots.txt

Важно! Имя файла должно быть всегда одинаковым! Это выглядит так:

robots.txt

Это Важно.

Никаких заглавных букв не должно быть. А на конце не забывайте писать «s». Смело копируйте файл robots.txt, который я Вам дала выше. Только не забудьте поменять мои данные на свои. И загрузите (robots.txt), в корневой каталог. Я это делаю через программу filezilla. Она проста и удобна. Как пользоваться и загружать файлы в корень сайта. Об этом прочитайте Здесь.

На этом все! Жду отзывы.

C уважением, Рита Молчанова, автор блога ritabk.ru

    ritabk.ru

    Что такое файл robots.txt и для чего он нужен?

    Robots.txt – это системный, внутренний файл сайта, созданный в обычном текстовом блокноте, который представляет из себя пошаговую инструкцию для поисковых машин, которые ежедневно посещают и индексирует веб-ресурс.

    Каждый web-мастер должен знать значение этого важного элемента внутренней оптимизации и уметь его грамотно настраивать. Наличие данного файла обязательное условия для правильного и качественного seo.

    Что такое файл robots.txt для сайта WordPress

    Ещё такой нюанс, если у вашего сайта имеется несколько поддоменов, то у каждого из них, в корневом каталоге на сервере должен быть свой роботс. Кстати, данный файл является дополнением к Sitemaps (карта сайта для ПС), дальше в статье вы узнаете об этом более подробно.

    У каждого сайта есть разделы, которые можно индексировать и которые нельзя. В роботсе, как раз таки можно диктовать условия для поисковых роботов, например, сказать им, чтобы они индексировали все страницы сайта с полезным и продающим контентом, но не притрагивались к папкам движка, к системным файлам, к страницам с данными аккаунтов пользователей и т.д.

    Ещё в нем можно дать команду поисковой машине, соблюдать определенный промежуток времени между загрузкой файлов и документов с сервера во время индексирования, а также он прекрасно решает проблему наличия дублей (копий контента вашего сайта).

    А сейчас, я хочу с вами поделиться небольшим секретом, о котором, кстати, знают не все веб-мастера. Если вы создали и настроили robots.txt, то не думайте, что вы властелин поисковых роботов, знайте и помните, что он позволяет лишь частично управлять индексированием сайта.

    Наш отечественный поисковый гигант Яндекс строго и ответственно соблюдает прописанные инструкции и правила, а вот американский товарищ Гугл, не добросовестно к этому относится и в легкую может проиндексировать страницы и разделы на которых стоит запрет, а потом ещё и добавить в поисковую выдачу.

    Где находится файл robots.txt и как его создать?

    Этот товарищ располагается в корневом каталоге сайта, для наглядности смотрите ниже картинку со скриншотом моего каталога на сервере. Если вы устанавливаете WordPress на хостинге через функцию «Установка приложений», об этом я рассказывал в статье «Как установить WordPress на хостинг? Полное руководство по установке!», то файл роботс создается автоматически по умолчанию в стандартном, не доработанном виде.

    Где находится файл robots.txt

    Создается он на рабочем столе, с помощью обычного, текстового блокнота, который имеет расширение файла .txt. Кстати, рекомендую использовать прогу Notepad++ для редактирования и создания текстовых файлов, очень удобно.

    Закачать на сервер его можно, например, с помощью ftp используя программы Filezilla или Total Commander. Если вы хотите посмотреть, как выглядит данный файл на каком-то сайте или на своем, то наберите в браузере адрес http://имя_сайта/robots.txt.

    8 популярных ошибок, которые допускают начинающие веб-мастера

    1.Путаница в написании правил. Пожалуй это самая популярная ошибка в рунете.

    Неправильный вариант:
    User-agent: /
    Disallow: Googlebot

    Правильный вариант:
    User-agent: Googlebot
    Disallow: /

    2. Написание целого списка папок в одном правиле. Некоторые ребята умудряются сделать запрет индексации папок в одной строчке.

    Неправильный вариант:
    Disallow: /wp-admin /wp-login.php /xmlrpc.php /wp-includes

    Правильный вариант:
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-login.php
    Disallow: /xmlrpc.php

    3. Имя файла роботс большими буквами. Здесь я думаю понятно, всегда пишем название только маленькими буквами.

    Неправильный вариант:
    Robots.txt
    ROBOTS.TXT

    Правильный вариант:
    robots.txt

    4. Написание пустой строки в директиве User-agent

    Неправильный вариант:
    User-agent:
    Disallow:

    Правильный вариант:
    User-agent: *
    Disallow:

    5. Неправильно написанная ссылка в правиле «Host». Нужно писать линк без указания протокола http:// и без слеша на конце /

    Неправильный вариант:
    User-agent: Yandex
    Disallow: /wp-content/plugins
    Host: http://www.ivan-maslov.ru/

    Правильный вариант:
    User-agent: Yandex
    Disallow: /wp-content/plugins
    Host: www.ivan-maslov.ru

    6. Написание длинной колбасы с перечислением каждого файла. Чтобы этого не случилось, просто закрываем папку от индексации целиком.

    Неправильный вариант:
    User-agent: Yandex
    Disallow: /Brend/Armani.html
    Disallow: /Brend/Chanel.html
    Disallow: /Tur/Thailand.html
    Disallow: /Tur/Vietnam.html
    Disallow: /Tur/Egypt.html

    Правильный вариант:
    User-agent: Yandex
    Disallow: /Brend/
    Disallow: /Tur/

    7. Отсутствие в роботсе правила Disallow. По общепринятому стандарту поисковых систем, данная инструкция является обязательной, если вы не собираетесь ничего запрещать, тогда просто оставьте её пустой. Ок?

    Неправильный вариант:
    User-agent: Googlebot
    Host: www.ivan-maslov.ru

    Правильный вариант:
    User-agent: Googlebot
    Disallow:
    Host: www.ivan-maslov.ru

    8. Не указывают слеши в каталогах

    Неправильный вариант:
    User-agent: Googlebot
    Disallow: ivan

    Правильный вариант:
    User-agent: Googlebot
    Disallow: /ivan/

    Правильный и проверенный robots.txt для сайта WordPress

    А сейчас, я предлагаю вам ознакомится содержанием кода файла роботс, разобраться в каждой его директиве. а затем скачать готовый вариант.

     User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads Crawl-delay: 5 Host: ivan-maslov.ru Sitemap: http:///sitemap.xml Sitemap: http:///sitemap.xml.gz  User-agent: Googlebot Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads  User-agent: Mail.Ru Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads  User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads  User-agent: Googlebot-Image Allow: /wp-content/uploads/  User-agent: YandexImages Allow: /wp-content/uploads/  User-agent: Mediapartners-Google Disallow:  User-Agent: YaDirectBot Disallow: 

    >> Скачать файл robots.txt для сайта WordPress

    Описание значения строк файла robots.txt:

    1. «User-agent: *» — правила, прописанные ниже будут относится ко всем поисковым системам и их роботам, кроме Яндекса и Google
    2. «User-agent: Yandex» — правила, прописанные ниже будут относится к поисковому гиганту Яндекс и всем его поисковым роботам (ПР)
    3. «User-agent: Googlebot» — правила, прописанные ниже будут относится к поисковому гиганту Гугл и всем его ПР
    4. «User-agent: Mail.Ru» — правила, прописанные ниже будут относится к поисковому гиганту Майл ру и всем его ПР
    5. «Disallow:» — условие запрещающее индексирование
    6. «Allow:» — условие разрешающее индексирование
    7. «*» — звездочка означает допущение абсолютно любой и даже пустой последовательности символов
    8. «$» — дает возможность делать исключение для определенных файлов и каталогов в правиле
    9. «Host: vas-domen.ru» — данное правило используется только стариком Яндексом и указывает ему главное зеркало вашего сайта (www.sait.ru или sait.ru)
    10. «User-agent: Googlebot-Image» — правила, прописанные ниже будут относится конкретно к поисковому боту Гугла, который занимается индексированием изображений
    11. «User-agent: YandexImages» — правила, прописанные ниже будут относится конкретно к поисковому боту Яндекса, который занимается индексированием изображений
    12. «User-agent: Mediapartners-Google» — правила, прописанные ниже будут относится конкретно к поисковому боту Гугла, который занимается индексированием страниц и объявлений с рекламой AdSense. Напомню, что мы прописали там «Disallow:» это позволит подбирать более релевантные объявления и избежать ошибок индексирования. Если вы в будущем собираетесь размещать рекламу от Гугла или уже размещаете, то прописывайте такие правила сразу, чтобы на верочку было все ок, а то потом забудете.
    13. «User-Agent: YaDirectBot» — правила, прописанные ниже будут относится конкретно к поисковому боту Яндекса, который занимается индексированием страниц и объявлений с рекламой Яндекс Директ. В остальном все тоже самое, что писал в предыдущем пункте.
    14. «Sitemap:» — правило, в котором указывается ссылка на местоположение файла с картой сайта sitemap.xml.
    15. «Crawl-delay:» — полезное правило, которое снижает нагрузку на сервер, когда ПР очень часто заходят в гости к вашему сайту, здесь мы задаем время в секундах и говорим этим неугомонным товарищам, чтобы сканировали наш веб-ресурс не чаще, чем 1 раз в 5 секунд.

    Ну вот мы и рассмотрели значение всех строк, если этой информации вам мало, то дополнительно рекомендую почитать справку Яндекса. Кстати, скачать полностью готовый файл robots.txt для сайта WordPress, можно — здесь. Не забудьте поменять в нём строчки:

    4(1) ссылку на Sitemap
    4(1) главное зеркало web-ресурса в директиве «Host:»

    После того, как вы сделали все настройки и загрузили свой роботс в корневую папку сайта, обязательно проверьте его на ошибки, если вы скачали мой вариант, то можете не проверять, я уже это сделал, там всё чётко :-)

    ivan-maslov.ru

Поделиться:
Нет комментариев

Добавить комментарий

Ваш e-mail не будет опубликован. Все поля обязательны для заполнения.

×
Рекомендуем посмотреть
Adblock
detector