Архив меток » Поисковые Системы «

robots.txt для WordPress с учетом АГС-30

Раньше я не придавала значения файлам robots.txt – как правило, при установке движка создается свой я не задумывалась о его значимости. Индексируется – и хорошо :)

Теперь же, когда АГС-17 и АГС-30 зверствует на наших урожайных полях, приходится задумываться, какими методами можно защитить их от злого дяди Яши =)

Как известил нас Яндекс, было введено около сотни новых факторов, влияющих на ранжирование, но как было замечено на моих плантациях, основное отличие в алгоритмах свелось к тому, что на Yandex нынче нетерпим повторяющемуся контенту на страницах сайта. Поэтому методы увеличения количества страниц, как то: теги, метки, архивы, календарь, рубрики и прочее больше не имеют права на жизнь.
Точнее, право, конечно имеют, пусть себе живут на здоровье, но в индекс их пускать больше нельзя.

Естественно, что для разных движков нужны разные robots.txt, но для начала я остановлюсь на robots.txt для WordPress, так как от санкций Яндекса при АГС-30, на мой взгляд он пострадал больше всех.

Итак, после изучения яндексовской документации, у меня получился следующий Robots.txt:

User-agent: YandexBlog
Allow: /*

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: /author
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: ru-root.ru

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: */trackback/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=

Sitemap: http://ru-root.ru/sitemap.xml

Вкратце, происходящее:
Для ботов Yandex Blog разрешаем все, он не дурак и сам знает, что ему надо проиндексировать, прежде, чем свалить отсюда =)
Второй блок для основного бота Яндекса – ему закрываем все, что может ему не понравится – страницы без контента, дубли и служебные директории.
Разрешили все, что не запретили и директорию с изображениями блога.
Так же в этом блоке есть директива Host – она учитывается только Яндексом, поэтому в остальных блоках она не нужна. Вписываем ваш сайт, чтобы поисковик не забыл, где он находится и на будущее запомнил, как вас зовут :D .
Третий блок – для всех остальных, менее капризных и переборчивых поисковиков, в том числе для Google. Им мы дали проиндексировать большее количество закоулков нашего WordPress-а, но тоже без излишеств.
И последняя директива – расположение вашей карты сайта – sitemap.xml – указываем прямой путь к нему.

Ну вот, собственно, и готово, создаем файл robots.txt в корневой директории вашего Вордпресса и пользуемся :)
В следующих постах рассмотрим robots.txt для других CMS, в частности, больше всех меня сейчас волнует DLE, т.к. за дубли страниц к нему тоже очень много санкций от АГС-30.

Регистратор, кейворды

С доменами понемногу разобралась. Что касается реселлера, то наверное остановлю свой выбор на регги.ру, пообщалась с поддержкой, вроде норм все. Работают с 2005 года, а это уже показатель. Насчет доменов для фарма аптек категорических требований нет. Пока абуз нет – сказали, что трогать не будут.
Только что, проверяя почту, обратила внимание на множество варнингов от сайта danusya.net, ломали типо, почти DDoS аж… Раньше были конечно одиночные попытки взлома, но не такие массовые, больше 500 писем с предупреждениями пришло. Ну и кому он понадобился-то? Последние апы с него остатки ПР и ТИЦ стряхнули, вообще нулевой стоит… Жалко конечно будет если что, но восстановить-то не проблема…
В последние дни начала активно играться с гугли адвордс. Сортирую ключевики по разным тематикам и пихаю их куда не лень :)
Так вот и на этом блоге почти у каждой записи появилось множество меток.
Угадайте, откуда? =)
Беру текст записи, запихиваю в гугль адвордс, жму на “Получить рекомендации по выбору ключевых слов” и получаю целый список ВЧ, СЧ и НЧ.
Очеловечиваю его, отсеиваю явный “мусор” и добавляю в метки статьи.
Забавно, что раз гугль считает эти слова наиболее релевантными данному тексту, то эти метки еще немного усилят его релевантность, лиш бы только его не “стошнило” :) ))
Кроме того, все эти кейворды вводятся в “Облако тегов” на блоге, значит для гугля он тоже будет релевантен общему наполнению блога =) Ну и гут, поиграемся, посмотрим. Вообще этот блог у меня как плацдарм для экспериментов, все равно я его продвигать не собираюсь. Да и вообще, когда я только создала его, у меня была
навязчивая идея, как бы его спрятать от посторонних глаз. Ведь это что-то вроде личного дневника, а дневник обычно даже близким друзьям не всегда дают читать. А тут вообще всему миру. Именно поэтому я раньше никогда и не вела блогов :) Но как говорится, ко всему привыкаешь :)