Как проверить свой сайт на дубли страниц и затем их удалить

 

дубли-страниц

Приветствую, друзья!

Сегодня хочу поговорить вновь про дубли страниц, расскажу о том, как проверить свой сайт на дубли страниц и удалить дублированные страницы из индекса Google. Напомню, что я веду свой блог уже более года, пишу оптимизированные уникальные заметки, полезные для читателей, провожу конкурсы, уделяю достаточно времени своему блогу, но до сих пор топчусь на месте, движения вперед по посещаемости нет. По поисковым запросам, которые я продвигаю также движение нулевое.

Вот и решил я заняться поиском причин, которые мешают моему блогу ехать вперед.Такое ощущение, что какой-то лишний груз висит на сайте и мешает его разогнать или развивать дальше. Для начала нужно найти причину замедления развития, а затем искать пути избавления от этой проблемы.

Сначала я избавился от дублей replytocom , которые вызваны особенностями движка WordPress, точнее, древовидными комментариями. Напомню. что лишние страницы ( или «сопли», как говорят вебмастера ) удалялись из индекса Google около 6 месяцев. Я ждал, что из оставшихся 1020 страниц удалятся и оставшиеся, и картина с индексацией Google улучшится, но, цифра 1020 не меняется, хотя Яндекс индексирует всего 160 страниц моего блога. Как же быть, что делать дальше, думал я…

Как проверить сайт на дубли страниц

Для начала проанализируйте свой сайт, если у вас, примеру,  100 записей+ 10 страниц+ еще 10-20 скрытых страниц, то допускаем, что в индексе должны быть порядка 120-140 страниц. Сразу, оговорюсь, это при условии, если все страницы в индексе поисковых роботов! ( как повысить индексацию сайта ).

[ads2]

Анализ можно провести при помощи бесплатной программы Site auditor   скачайте свежую версию программы, внесите url своего сайта и проведите «Экспресс-анализ», нажав кнопку «Проверить».

Есть вариант надежней — зарегистрируйте свой блог в кабинете для вебмастеров для Яндекс и Google и проверьте количество проиндексированных страниц. Если Яндекс покажет, к примеру 125, а Гугл более 200, а может и более 1000, то у вас есть дублированные страницы, с которыми необходимо бороться.

Для этого вы должны поочередно ввести следующие поисковые запросы в Google и проанализировать в дальнейшем. Итак вот запросы, только вместо mysite.com не забудьте ввести URL своего сайта

 

site:mysait.com feed
 site:mysait.com tag
 site:mysait.com attachment
 site:mysait.com attachment_id
 site:mysait.com page
 site:mysait.com category
 site:mysait.com comment-page
 site:mysait.com trackback

В моем случае, я ввожу site:rabotaiuspeh.com feed, затем вторую строку и так далее…
Мои результаты:
По запросу Feef — 6 страниц, норма
По запросу tag — 24 страницы, нужно почистить немного, теги я прописывал для постов только в самом начала ведения блога, потом перестал.

По запросу — attachment,attachment_id, comment-page, trackback  — ничего не нашел

По запросу — page — 7 результатов, нужно их убрать из индекса

По запросу category получилось аж 51 вариант, это явный перебор, поскольку рубрик у меня 10 и 3 я убрал ранее, точней объединил несколько рубрик.

У кого то эти показатели и соотношение будет другим, зависит от шаблона, плагинов, валидности кода и так далее, не важно. После того, как вы знаете, какие бяки у вас сидят и создают дублированные страницы, пора заняться ими вплотную и удалить.

Как удалить дубли страниц на сайте

  1. Меняем robots.txt коренным образом

Ранее я писал подробную заметку о том, что такое файл robots.txt, для чего он нужен и как должен выглядеть правильный robots.txt (подробно про robots.txt ). Но это было в том случае, что у вас с сайтом все в порядке и дублей нет.

Если же у вас есть дубли страниц, тогда мы находим в корневой папке файл robots.txt, жмем «редактировать», удаляем ВСЕ, что было ранее и вставляем следующие строки:

User-agent: * 
Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins 
Disallow: /wp-content/cache 
Disallow: /wp-content/themes 
Host: mysite.com 
Sitemap: http://mysite.com/sitemap.xml 
User-agent: Googlebot-Image 
Allow: /wp-content/uploads/ User-agent: YandexImages 
Allow: /wp-content/uploads/

Только не забудьте вместо mysite.ru в двух местах изменить url на свой корректный!

Если у вас еще нет карты сайта в формате sitemap.xml, почитайте заметку, в которой все подробно рассказываю и сделайте у себя, это важно!

После этого сохраните robots.txt. Для чего мы это сделали? Мы открываем все ранее закрытые для индексации страницы, которые создавали дубли страниц ля поисковика Google. После анализа он должен со временем выкинуть лишние страницы. Идем дальше.

2.  Делаем редирект, вносим изменения в .htacces

Для того, чтобы читатели, которые пришли на блог со страниц с дублями не попадали на страницу с ошибкой 404, мы и делаем данную переадресацию. Теперь они должны будут переадресовываться на главные страницы запроса.

Зайдите в корневую папку, затем /wp-content/ => /themes/=>/ваша действующая тема/ и найдите файл .htacces и добавьте в него следующие строки:

RewriteRule (.+)/feed /$1 [R=301,L] 
RewriteRule (.+)/comment-page /$1 [R=301,L] 
RewriteRule (.+)/trackback /$1 [R=301,L] 
RewriteRule (.+)/comments /$1 [R=301,L] 
RewriteRule (.+)/attachment /$1 [R=301,L] 
RewriteCond %{QUERY_STRING} ^attachment_id= [NC] 
RewriteRule (.*) $1? [R=301,L]

Если файла .htacces вы не нашли, создайте простой текстовый документ, вставьте содержимое и загрузите в папку с вашей темой.

3. Вставляем код в function.php 

Данный код также поможет удалить лишние «сопли» из индекса Google, в частности, станицы с тегами page, для меня это актуально.

Зайдите в папку со своей темой и найдите файл function.php, откройте его и вверху сразу после тега <?php, вставьте код:

/*** ДОБАВЛЯЕМ meta robots noindex,nofollow ДЛЯ СТРАНИЦ ***/ 
function my_meta_noindex () { 
if (
 is_paged() // Все и любые страницы пагинации )
 {echo "".'<meta name="robots" content="noindex,nofollow" />'."\n";} } 
add_action('wp_head', 'my_meta_noindex', 3); 
// добавляем свой noindex,nofollow в head

4.  Изменяем настройки индексирования в плагине All in seo puck

Если у вас установлен плагин All in Seo Puck, зайдите в админку блога «Инструменты SEO», выбираем раздел «Основные» , скролим вниз, находим «Настройки индексирования» (noindex) и делаем так, как показано на скрине:

5. Изменяем настройки редактирования на блоге

Если у вас древовидные комментарии реализованы на блоги свои, родные и стоит галочка на «разрешить древовидные комментарии», тогда вам нужно убрать галочку в чекбоксе ниже, напротив «разбивать комментарии на странице»

 

У меня, например, для древовидных комментариев стоит плагин и в админке они отключены и галочка, соответственно, которую нужно убрать и так не стояла. В общем, думаю, тут всё понятно — если  стояла — убираем, если не было, ничего не делайте в этом пункте.

Вот и всё, друзья! Теперь остается только ждать и заходить раз в несколько дней в кабинет Google вебмастер и просматривать динамику изменения страниц в индексе.

Вот какая картина наблюдается у меня, буду ждать, когда количество страниц в Гугл будет реальным и уменьшится до вменяемого количества.

Положительная динамика на лицо (количество страниц в индексе уменьшается), буду ждать улучшения отношения ко мне поисковой системы Google. Плюс к этому, я по советы Александра Борисова, удалил у себя плагин No external Link и уже более недели занимаюсь редактированием всех заметок, написанных ранее.

Своим опытом поделюсь с вами в ближайшее время, не забудьте  подписаться на обновления !

Новый марафон кроссвордов «Эрудит — 4» стартует 15 июля! Темы кроссвордов будут самые разнообразные, надеюсь, победители и участники предыдущих конкурсов примут участие в новом марафоне и поборются за призовые места. Кроссвордов будет 7 и призы указаны на странице конкурса кроссвордов . Если у вебмастеров есть возможность анонсировать марафон на своем блоге, буду очень признателен.

Делитесь своим опытом по удалению дублей страниц, какие у вас результаты, если что не получается, пишите в комментариях, обсудим.

До встречи!

Интересные статьи по теме:

Как правильно давать и удалять анонсы в subscribe.ru

смешные поисковые запросы читателей блога

Внешняя оптимизация сайта

Внутренняя оптимизация сайта – основные моменты

Как очистить свой компьютер от мусора?

С уважением, Вилков Николай

Все статьи блога

Хотите в числе первых узнавать о новых статьях и курсах?

Подпишитесь на обновления моего блога и мой канал на YouTube
Если статья вам понравилась, поделитесь с друзьями в социальных сетях. Спасибо!

Получать новости первым!

Получать обновления блога на Email

Обсуждение: 70 комментариев

  1. Ох уж эти дубли!!!

    Ответить
    1. Хорошо тем, кого эта проблема обошла стороной, у меня с дублями борьба идет с ноября 2013 года, до победы еще идти и идти 🙂

      Ответить
      1. А в чем проблемма Николай.
        По чему ее не избежишь?

      2. Дубли очень долго из индекса Гугл выпадают, от полугода до года. 😉

      3. А ну только что это.
        У меня такие же проблемы.

  2. Владислав:

    Наконец-то нашел нормальное решение проблемы дублей на WordPress Спасибо! Буду теперь бороться! )

    Ответить
    1. Владислав, буду рад помочь, делитесь результатами через время.

      Ответить
  3. Сергей:

    Тема старая, но нужная. Давно уже все проделал, кроме редиректа.
    Спасибо Николай за редирект, сегодня попробую поставить, посмотрю что получится.

    Ответить
    1. Сергей, удачи!
      Если у вас ранее были редиректы в .htacces, на всякий случай создайте копию перед этим, мало ли. Или запомните строки, которые добавляли.

      Ответить
      1. Сергей:

        Я знаю, спасибо еще раз, Николай. 🙂

  4. Александр Череп:

    Тоже сейчас воюю с дублями После статьи Борисова этим по моему занялись все кому ни лень))

    Ответить
    1. Я уже реально вижу результаты от его дельных советов.

      Ответить
  5. Вера:

    User-agent: Mediapartners-Google
    Disallow:

    Почему добавлены эти строки? У Борисова их нет.

    Ответить
    1. Они изначально были и у Александра, но потом их удалили, я исправил, спасибо за подсказку. Эти строки якобы оказывают влияние, если у вас стоит Google Adsence, дает рекламу по КС поста, но не все так однозначно оказалось и Александр эти строки посоветовал удалить.

      Ответить
  6. Подскажите, пожалуйста, по поводу кода, вставляемого в function.php

    Мне он чего-й-то не понятен совсем ???
    Что в нём нужно изменить при вставке на свой сайт?

    Ответить
    1. Вера, в коде, который вставляется в function.php ничего менять не нужно. Этот код убирает из дублей тег page, часто в индексе есть страницы вида site.ru/page8/optimizazija, например, вот они они и не должны учитываться при основной индексации поисковыми роботами.
      Данный код и поможет нам в этом. 😉

      Ответить
  7. alimugik:

    А чем плох No external Link?

    Ответить
    1. Плагин No External Link закрывает ссылки на блоге, но делает это не корректно, он ссылку закрывает переадресацией. Наведите на любую ссылку, если у вас стоит плагин и увидите, что он добавляет строку site.ru:goto http://site.ru/ssylka Поисковые роботы видят эту не корректную и не естесственную переадресацию и могут загонять под фильтры сайт и понижать его в выдаче по поисковым запросам. Я удаляю последствия установленного ранее плагина No External уже более недели и уже вижу положительный эффект и динамику улучшения трафика, хотя еще не все посты переделал (закрываю многие внешние ссылки от индексации вручную)

      Ответить
  8. Вроде не новичок, вордпресс знаю неплохо, с дублями никогда проблем не было, но пару фишек не знал…
    Про рубрики и тэги скажу так, есть случаи когда их закрывать от индексации нельзя. Реально нельзя, например для магазинов категории товаров, они же намного релевантнее запросам чем карточки товаров, тут наоборот карточки лучше закрыть ( да-да и я не сошел с ума, на карточки товаров если их очень много переходят намного реже чем на страницы категорий ) Теги тоже можно в магазинах не закрывать, они с рубриками идеально дополняют друг друга, но тут надо с ЧПУ мудрить, то есть настроить так чтобы адреса страниц нормально отображались и не дублировали друг друга. А вот для блога всё верно, тут уж нечего добавить
    А архивы да, архивы зло!!!!!!!

    Ответить
    1. Сергей, спасибо за дополнения, но я пока магазин не открывал и опыт небольшой только в ведении блога. В будущем мне это пригодится.

      Ответить
  9. наконец то есть инфа о том что нужно закрывать постраничку от индекса.В прошлом году так ответа ни кто и не дал на этот вопрос. Спасибо Николай!

    Ответить
    1. Это Александру Борисову спасибо за ценную информацию в новом курсе и на страницах блога. 😛

      Ответить
  10. Спасибо за полезную инфо! 😉

    Ответить
    1. Рад был помочь, если возникнут вопросы, пишите, Надежда.

      Ответить
  11. Все на борьбу с дублями! : )

    Кстати, я помню тот твой пост про дубли, дельные советы давал по этому поводу.

    Вообще, бороться надо, конечно. Вы не представляете, как ад с ними творится в Джумле. В ВП еще все отлично )

    Ответить
    1. Эх, не знаю как там с блогами на Joomla обстоят дела, но на твоем блоге, Дмитрий, всё в порядке, судя по трафику 🙂 Хотя при анализе на xtools в графе фильтры и санкции написано — дубли страниц и !

      Ответить
      1. нет никаких санкций)Дублей у меня очень мало, проверял уже.
        Я вообще не доверяю xtool, так как там какие-то странные цифры и давно не обращаюсь к нему как к инструменту для серьезной работы.

      2. Дмитрий, все данные для анализа берешь из первоисточников — Яндекс вебмастер и Google вебмастер и аналитика?

      3. Исключительно из них. Но предпочитаю Гугл-Аналитикс за исключительную гибкость. Там вообще чудеса — обязательно напишу про нее.
        Кстати, у тебя ЛайвИнтернет показывает ключевики из Яндекса? По-идее, должны отвалиться уже. В Гугл-Аналитикс очень мало показывает из Яндекса. Приходится сразу в двух системах работать.

      4. Я в Аналитике еще не разбирался особо, только в вебмастере смотрю Google и Яндекс. Да, в Лайвинтернет вижу запросы, основной трафик идет с Яндекса, но я не пойму как там разобрать по каким запросам приходят с какого поисковика, у меня и укр.нет и Гугл и Бинг иногда и с других заходят. Вот ведь дело привычки, начинал раньше запросы смотреть на одном сервисе и довольно сложно перестроится.
        Вот буду ждать твои секреты про Аналитику в ближайших заметках, кстати, про интервью я письмо писал, наверное, в спам улетело, ответа не было 🙁

      5. Слушай, я тебе ответил через техподдержку (видимо тебе не дошло уведомление)

  12. Юрий Йосифович:

    Конечно, если блог на WP, то с дублями просто справиться (согласно прямым инструкциям) — но вот что же делать мне, если у меня блог на Joomla (чур, возвращаться на WP не предлагать!).

    Ответить
    1. На Joomla говорят, все намного сложней с дублями. Это нужно искать инструкции для своего движка, в нем я не особо разбираюсь.

      Ответить
  13. Спасибо, Николай! Всё подробно и понятно — по пунктикам. Дубли страниц — это проблема многих блогеров, мне тоже надо их убрать)Буду разбираться)

    Ответить
    1. Лара, давайте растворять дубли вместе, если будут вопросы, пишите!

      Ответить
  14. Николай, спасибо. На днях хочу заняться этим вопросом, если будут вопросы — буду обращаться)))

    Ответить
    1. Лара, не затягивайте с этим делом, если у вас есть дубли, конечно же 🙂 У вас Яндекс индексирует 274 страницы, а Гугл 1360, есть повод задуматься…

      Ответить
  15. Эти дубли,я запретил индексировать, а вернее открыл, где-то недели две назад по совету другого блоггера. Теперь жду, когда все дубли улетят с поисковой выдачи.

    Ответить
    1. Я полгода ждал, пока не увидел результат, медленно из индекса Google они выползают, особенно replytocom/

      Ответить
  16. Vlad:

    Популярная тема на данный момент! Вот тоже недавно все закрыл и теперь веду наблюдение…=)

    Ответить
    1. Vlad, делитесь опытом и результатами своими:)

      Ответить
      1. Vlad:

        Пока что-то сложно говорить! Там пока все нестабильно: то меньше — то больше… 😉

      2. Нужно скриншот сделать в определенный день и сравнить через месяц показатели, тогда и динамику видно будет.

      3. Vlad:

        У меня свои фишки! 😉

    2. Так эта тема всегда будет популярной.

      Ответить
  17. Диана:

    У меня уже и проверять нечего особо, блог слетел мой. Обидно, хоть там и мало, что было, но был дизайн настроенный. Ладно, восстановлю заново.) Спасибо за статью, Николай! На будущее очень пригодится, а лучше бы сразу как-то избегать этих дублей, чтобы они и не появлялись.)

    Ответить
    1. Vlad:

      А я то думал почему вы ссылку на левый блог ставите, но потом все-таки и на ваш нашел… А что возникли сложности с восстановлением?

      Ответить
  18. Где-то два месяца назад у Саши Борисова я читала статью про дубли. После проверки я обнаружила в доп.индексе Гугла кучу страниц, после внесения поправок — дубли стали уходить. На сегодняшний день осталось только две страницы фида.
    А вот насчет плагина No external Link я не знала, у меня он и сейчас стоит 😯 Придется удалять и делать все ручками.
    Что касается плагина All in Seo, то я его снесла, опять же таки после прочтения статьи Борисова и поставила Платину. Вы наверняка тоже читали эту статью? Вас коснулась эта проблема?

    Ответить
    1. Оксана, я консерватор и не тороплюсь сразу рубить с плеча. Я уже не раз замечал, что Александр Борисов порою слишком эмоционально подходит к некоторым довольно простым вещам и действует очень кардинально, причем дает призыв к действию всем читателям. Я не торопился и нашел замечательное решение, о котором писал Дмитрий на блоге ideafox.ru, выполнил я эти действия за 10 минут и всё работает, а вот как теперь вам быть с платиной, не знаю, поскольку этот плагин давно не обновляют.

      Ответить
      1. Vlad:

        Да мне просто лень было настраивать! 🙂

        P.S. Шутка, а может и нет… 😉

    2. Vlad:

      Все так сразу рванули за Борисовым, начали сносить плагины, обживаться новыми проблемами и т.д.

      P.S. Это насчет плагина All In One SEO Pack.

      А нужно было просто немного подождать и появились бы более универсальные способы.

      Кстати, они появились!

      Да я тоже зашел прочитал статью, но только где-то через неделю начал искать ответы и производить настройки!

      Не нужно гнаться за последними обновлениями! 😉

      Ответить
      1. Что поделаешь, не все такие предусмотрительные как вы)))) 😉 😉 😉 Но думаю со временем я тоже этому научусь))) Вы ведь когда ходить учились в детстве, тоже падали?

      2. Молодец Оксана,правильно написали.
        На ошибках учатся,но лучше учиться на чужих. :mrgreen:

    3. Vlad:

      Не туда написал… 😯

      Ответить
    4. Vlad:

      А вообще, All In One SEO Pack просто очень удобный и я к нему привык, вот и начал искать другие способы решения данной проблемы!

      Да все падали! 😉

      Ответить
      1. Меня также полностью All in Seo устраивает, так что я не спешил его менять на платину и правильно сделал)) 😉

  19. Да-а-а, где же Дима раньше-то был? Прочитала его статью о которой вы говорили. Ну что же, что сделано -то сделано, всего не предусмотришь. В принципе, статей у меня порядка 50 штук, можно и руками переписать метатеги, но думаю ПС это не понравится. Так что будем надеяться что Платина не подведет. Ну даже если что-то пойдет с ней не так, я думаю Борисов все равно чего-нибудь придумает, правда? 😉 😉 😉

    Ответить
    1. Это характерная черта для большого количества людей: сначала мы любим создавать себе проблемы, зато потом их героически решаем и гордимся собой)) Нужно научится не создавать лишних проблем, вот этому необходимо учиться.

      Ответить
      1. Я думаю, что в любом случае паниковать не стоит. Ведь не факт, что с Платиной могут возникнуть проблемы, мы ведь с вами этого знать не можем.)))) А научиться в этой жизни нужно еще очень многому, я как начинающий блогер это прекрасно понимаю. Если бы я все знала про блоговедение, то использовала бы СВОИ знания, а не искала бы ответы на вопросы в других блогах и выполняя рекомендации авторитетных блогеров.)))

    2. Vlad:

      Читал, что в Платине и так есть проблемы — не решается проблема отдельных страниц…

      Ответить
      1. Vlad, что именно вы имеете ввиду, какие проблемы со страницами? Можно подробнее с этого места? Может я чего-то не заметила. Пока у себя на сайте я не столкнулась с проблемами.

    3. Vlad:

      Говорят, если добавить к отдельной странице («о сайте», «карта сайта» и т.д.) слеш и цифры, а потом посмотреть исходный код этой страницы, то тогда в плагине Platinum SEO можно увидеть ссылку с canonical, а также мета тег роботс index,follow, то есть указание поисковым роботам индексировать эту страницу.

      Ответить
      1. Vlad, зайдите в мой блог и сделайте то, о чем говорили. Вы получите ответ на свой вопрос. 😉

      2. Vlad:

        Редирект говорят лучше… 😉

      3. Vlad:

        Но так тоже неплохо! =)

  20. Сейчас пойду блог на дубли проверять.
    Благодарю за информацию.

    Ответить
    1. Блог на дубли проверил,благодаря вашим советам подправил.
      Теперь надо собраться и переделать старые статьи,пока их мало. Как представлю сколько работы предстоит,тошно делается :mrgreen:

      Ответить
      1. Ничего, главное каждый день делать маленький шажок но вперёд)) Глаза боятся, а руки делают, планирование очень помогает в такой работе и намечать объем работы.

  21. Vlad:

    «Глаза боятся, а руки делают» — где-то эти слова я уже сегодня слышал… 🙂

    Ответить

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

© 2017 Блог Николая Вилкова | Записки блогера // Дизайн и поддержка: GoodwinPress.ru