Раньше я не придавала значения файлам robots.txt – как правило, при установке движка создается свой я не задумывалась о его значимости. Индексируется – и хорошо
Теперь же, когда АГС-17 и АГС-30 зверствует на наших урожайных полях, приходится задумываться, какими методами можно защитить их от злого дяди Яши =)
Как известил нас Яндекс, было введено около сотни новых факторов, влияющих на ранжирование, но как было замечено на моих плантациях, основное отличие в алгоритмах свелось к тому, что на Yandex нынче нетерпим повторяющемуся контенту на страницах сайта. Поэтому методы увеличения количества страниц, как то: теги, метки, архивы, календарь, рубрики и прочее больше не имеют права на жизнь.
Точнее, право, конечно имеют, пусть себе живут на здоровье, но в индекс их пускать больше нельзя.
Естественно, что для разных движков нужны разные robots.txt, но для начала я остановлюсь на robots.txt для WordPress, так как от санкций Яндекса при АГС-30, на мой взгляд он пострадал больше всех.
Итак, после изучения яндексовской документации, у меня получился следующий Robots.txt:
User-agent: YandexBlog
Allow: /*
User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: /author
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: ru-root.ru
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: */trackback/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Sitemap: http://ru-root.ru/sitemap.xml
Вкратце, происходящее:
Для ботов Yandex Blog разрешаем все, он не дурак и сам знает, что ему надо проиндексировать, прежде, чем свалить отсюда =)
Второй блок для основного бота Яндекса – ему закрываем все, что может ему не понравится – страницы без контента, дубли и служебные директории.
Разрешили все, что не запретили и директорию с изображениями блога.
Так же в этом блоке есть директива Host – она учитывается только Яндексом, поэтому в остальных блоках она не нужна. Вписываем ваш сайт, чтобы поисковик не забыл, где он находится и на будущее запомнил, как вас зовут
.
Третий блок – для всех остальных, менее капризных и переборчивых поисковиков, в том числе для Google. Им мы дали проиндексировать большее количество закоулков нашего WordPress-а, но тоже без излишеств.
И последняя директива – расположение вашей карты сайта – sitemap.xml – указываем прямой путь к нему.
Ну вот, собственно, и готово, создаем файл robots.txt в корневой директории вашего Вордпресса и пользуемся 
В следующих постах рассмотрим robots.txt для других CMS, в частности, больше всех меня сейчас волнует DLE, т.к. за дубли страниц к нему тоже очень много санкций от АГС-30.