Архив меток » Google «

Как найти релевантные сайты или Где взять PR часть 2

Как все мы хорошо знаем, гугл (да и не только) любит и высоко оценивает тематические ссылки. В противоположность ссылочному спаму, который гугл конечно же, замечает, просто поделать с ним ничего не может.

Т.е. если вы продвигаете сайт по тематике “Мебель” и ваши беки будут с сайтов с аналогичной тематикой, то вы получите неоспоримое преимущество перед сайтами, которые продвигаются ссылочным спамом.

Теперь нам нужно собрать “доноров” :)

Тут два варианта:

  1. Спрашиваем у гугла, какие сайты он нам может предложить по запросу “Мебель”, “Купить мебель” etc.
  1. Используя язык гугла спрашиваем у него в лоб “Какие сайты релевантны моему?”, т.е. “related:имя-вашего-домена.ru”

Дальше запускаем парсер и снимаем сливки в виде списка релевантных ресурсов, на которых нам бы очень хотелось заполучить заветную ссылочку :)

Хочу заметить, что первый пункт подходит всем абсолютно, в то время как второй – только для выдержанных сайтов, проиндексированных в Google, т.к. данные об этом сайте на момент запроса у него уже должны быть собраны.

Где взять ПР часть первая

robots.txt для WordPress с учетом АГС-30

Раньше я не придавала значения файлам robots.txt – как правило, при установке движка создается свой я не задумывалась о его значимости. Индексируется – и хорошо :)

Теперь же, когда АГС-17 и АГС-30 зверствует на наших урожайных полях, приходится задумываться, какими методами можно защитить их от злого дяди Яши =)

Как известил нас Яндекс, было введено около сотни новых факторов, влияющих на ранжирование, но как было замечено на моих плантациях, основное отличие в алгоритмах свелось к тому, что на Yandex нынче нетерпим повторяющемуся контенту на страницах сайта. Поэтому методы увеличения количества страниц, как то: теги, метки, архивы, календарь, рубрики и прочее больше не имеют права на жизнь.
Точнее, право, конечно имеют, пусть себе живут на здоровье, но в индекс их пускать больше нельзя.

Естественно, что для разных движков нужны разные robots.txt, но для начала я остановлюсь на robots.txt для WordPress, так как от санкций Яндекса при АГС-30, на мой взгляд он пострадал больше всех.

Итак, после изучения яндексовской документации, у меня получился следующий Robots.txt:

User-agent: YandexBlog
Allow: /*

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: /author
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: ru-root.ru

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: */trackback/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=

Sitemap: http://ru-root.ru/sitemap.xml

Вкратце, происходящее:
Для ботов Yandex Blog разрешаем все, он не дурак и сам знает, что ему надо проиндексировать, прежде, чем свалить отсюда =)
Второй блок для основного бота Яндекса – ему закрываем все, что может ему не понравится – страницы без контента, дубли и служебные директории.
Разрешили все, что не запретили и директорию с изображениями блога.
Так же в этом блоке есть директива Host – она учитывается только Яндексом, поэтому в остальных блоках она не нужна. Вписываем ваш сайт, чтобы поисковик не забыл, где он находится и на будущее запомнил, как вас зовут :D .
Третий блок – для всех остальных, менее капризных и переборчивых поисковиков, в том числе для Google. Им мы дали проиндексировать большее количество закоулков нашего WordPress-а, но тоже без излишеств.
И последняя директива – расположение вашей карты сайта – sitemap.xml – указываем прямой путь к нему.

Ну вот, собственно, и готово, создаем файл robots.txt в корневой директории вашего Вордпресса и пользуемся :)
В следующих постах рассмотрим robots.txt для других CMS, в частности, больше всех меня сейчас волнует DLE, т.к. за дубли страниц к нему тоже очень много санкций от АГС-30.

Палю тему, как найти страницы, которые проиндексированы Google за последний час.

Тема спалена не мной, но мало где засвечена, так что надо юзать, пока мало кто ее знает и работать с отрывом и преимуществом перед остальными :)

Заходм в Google и набираем запрос, например, “виагра”, получаем результаты.
Внизу, возле поля для поискового запроса слева есть ссылка,  “Показать настройки” или, если на иншглише, то “Show Options”, жмем не нее.
Попадаем на страницу “За все время”. А ниже приводятся временные интервалы: За последние 24 часа, За последнюю неделю, За последний год и прочее. Если мы нажимаем на линк “За последние 24 часа”, соответственно, получаем нужные результаты
А теперь давайте посмотрим, как выглядит урла запроса. Мы увидим следующее: tbs=qdr:d

Собственно, нас на данный момент интересует именно буква “d”. Если нам нужно увидеть контент, который был добавлен в течение последнего часа, то вместо буквы “d” вставляем букву “h”. У нас получается tbs=qdr:h. Жмем ентер и получаем то, что искали :) . Если нужен контент за прошедшую минуту, то вместо “d” впишем букву “n”.

Категория: Палю тему  Метки:  Комментарии (4)