X
    Categories: Новости

Как проверить свой сайт на дубли страниц и затем их удалить

Приветствую, друзья!

Сегодня хочу поговорить вновь про дубли страниц, расскажу о том, как проверить свой сайт на дубли страниц и удалить дублированные страницы из индекса Google. Напомню, что я веду свой блог уже более года, пишу оптимизированные уникальные заметки, полезные для читателей, провожу конкурсы, уделяю достаточно времени своему блогу, но до сих пор топчусь на месте, движения вперед по посещаемости нет. По поисковым запросам, которые я продвигаю также движение нулевое.

Вот и решил я заняться поиском причин, которые мешают моему блогу ехать вперед.Такое ощущение, что какой-то лишний груз висит на сайте и мешает его разогнать или развивать дальше. Для начала нужно найти причину замедления развития, а затем искать пути избавления от этой проблемы.

Сначала я избавился от дублей replytocom , которые вызваны особенностями движка WordPress, точнее, древовидными комментариями. Напомню. что лишние страницы ( или «сопли», как говорят вебмастера ) удалялись из индекса Google около 6 месяцев. Я ждал, что из оставшихся 1020 страниц удалятся и оставшиеся, и картина с индексацией Google улучшится, но, цифра 1020 не меняется, хотя Яндекс индексирует всего 160 страниц моего блога. Как же быть, что делать дальше, думал я…

Как проверить сайт на дубли страниц

Для начала проанализируйте свой сайт, если у вас, примеру,  100 записей+ 10 страниц+ еще 10-20 скрытых страниц, то допускаем, что в индексе должны быть порядка 120-140 страниц. Сразу, оговорюсь, это при условии, если все страницы в индексе поисковых роботов! ( как повысить индексацию сайта ).

Анализ можно провести при помощи бесплатной программы Site auditor   скачайте свежую версию программы, внесите url своего сайта и проведите «Экспресс-анализ», нажав кнопку «Проверить».

Есть вариант надежней — зарегистрируйте свой блог в кабинете для вебмастеров для Яндекс и Google и проверьте количество проиндексированных страниц. Если Яндекс покажет, к примеру 125, а Гугл более 200, а может и более 1000, то у вас есть дублированные страницы, с которыми необходимо бороться.

Для этого вы должны поочередно ввести следующие поисковые запросы в Google и проанализировать в дальнейшем. Итак вот запросы, только вместо mysite.com не забудьте ввести URL своего сайта

 

site:mysait.com feed
 site:mysait.com tag
 site:mysait.com attachment
 site:mysait.com attachment_id
 site:mysait.com page
 site:mysait.com category
 site:mysait.com comment-page
 site:mysait.com trackback

В моем случае, я ввожу site:rabotaiuspeh.com feed, затем вторую строку и так далее…
Мои результаты:
По запросу Feef — 6 страниц, норма
По запросу tag — 24 страницы, нужно почистить немного, теги я прописывал для постов только в самом начала ведения блога, потом перестал.

По запросу — attachment,attachment_id, comment-page, trackback  — ничего не нашел

По запросу — page — 7 результатов, нужно их убрать из индекса

По запросу category получилось аж 51 вариант, это явный перебор, поскольку рубрик у меня 10 и 3 я убрал ранее, точней объединил несколько рубрик.

У кого то эти показатели и соотношение будет другим, зависит от шаблона, плагинов, валидности кода и так далее, не важно. После того, как вы знаете, какие бяки у вас сидят и создают дублированные страницы, пора заняться ими вплотную и удалить.

Как удалить дубли страниц на сайте

  1. Меняем robots.txt коренным образом

Ранее я писал подробную заметку о том, что такое файл robots.txt, для чего он нужен и как должен выглядеть правильный robots.txt (подробно про robots.txt ). Но это было в том случае, что у вас с сайтом все в порядке и дублей нет.

Если же у вас есть дубли страниц, тогда мы находим в корневой папке файл robots.txt, жмем «редактировать», удаляем ВСЕ, что было ранее и вставляем следующие строки:

User-agent: * 
Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins 
Disallow: /wp-content/cache 
Disallow: /wp-content/themes 
Host: mysite.com 
Sitemap:  
User-agent: Googlebot-Image 
Allow: /wp-content/uploads/ User-agent: YandexImages 
Allow: /wp-content/uploads/

Только не забудьте вместо mysite.ru в двух местах изменить url на свой корректный!

Если у вас еще нет карты сайта в формате sitemap.xml, почитайте заметку, в которой все подробно рассказываю и сделайте у себя, это важно!

После этого сохраните robots.txt. Для чего мы это сделали? Мы открываем все ранее закрытые для индексации страницы, которые создавали дубли страниц ля поисковика Google. После анализа он должен со временем выкинуть лишние страницы. Идем дальше.

2.  Делаем редирект, вносим изменения в .htacces

Для того, чтобы читатели, которые пришли на блог со страниц с дублями не попадали на страницу с ошибкой 404, мы и делаем данную переадресацию. Теперь они должны будут переадресовываться на главные страницы запроса.

Зайдите в корневую папку, затем /wp-content/ => /themes/=>/ваша действующая тема/ и найдите файл .htacces и добавьте в него следующие строки:

RewriteRule (.+)/feed /$1 [R=301,L] 
RewriteRule (.+)/comment-page /$1 [R=301,L] 
RewriteRule (.+)/trackback /$1 [R=301,L] 
RewriteRule (.+)/comments /$1 [R=301,L] 
RewriteRule (.+)/attachment /$1 [R=301,L] 
RewriteCond %{QUERY_STRING} ^attachment_id= [NC] 
RewriteRule (.*) $1? [R=301,L]

Если файла .htacces вы не нашли, создайте простой текстовый документ, вставьте содержимое и загрузите в папку с вашей темой.

3. Вставляем код в function.php 

Данный код также поможет удалить лишние «сопли» из индекса Google, в частности, станицы с тегами page, для меня это актуально.

Зайдите в папку со своей темой и найдите файл function.php, откройте его и вверху сразу после тега <?php, вставьте код:

/*** ДОБАВЛЯЕМ meta robots noindex,nofollow ДЛЯ СТРАНИЦ ***/ 
function my_meta_noindex () { 
if (
 is_paged() // Все и любые страницы пагинации )
 {echo "".'<meta name="robots" content="noindex,nofollow" />'."\n";} } 
add_action('wp_head', 'my_meta_noindex', 3); 
// добавляем свой noindex,nofollow в head

4.  Изменяем настройки индексирования в плагине All in seo puck

Если у вас установлен плагин All in Seo Puck, зайдите в админку блога «Инструменты SEO», выбираем раздел «Основные» , скролим вниз, находим «Настройки индексирования» (noindex) и делаем так, как показано на скрине:

5. Изменяем настройки редактирования на блоге

Если у вас древовидные комментарии реализованы на блоги свои, родные и стоит галочка на «разрешить древовидные комментарии», тогда вам нужно убрать галочку в чекбоксе ниже, напротив «разбивать комментарии на странице»

 

У меня, например, для древовидных комментариев стоит плагин и в админке они отключены и галочка, соответственно, которую нужно убрать и так не стояла. В общем, думаю, тут всё понятно — если  стояла — убираем, если не было, ничего не делайте в этом пункте.

Вот и всё, друзья! Теперь остается только ждать и заходить раз в несколько дней в кабинет Google вебмастер и просматривать динамику изменения страниц в индексе.

Вот какая картина наблюдается у меня, буду ждать, когда количество страниц в Гугл будет реальным и уменьшится до вменяемого количества.

Положительная динамика на лицо (количество страниц в индексе уменьшается), буду ждать улучшения отношения ко мне поисковой системы Google. Плюс к этому, я по советы Александра Борисова, удалил у себя плагин No external Link и уже более недели занимаюсь редактированием всех заметок, написанных ранее.

Своим опытом поделюсь с вами в ближайшее время, не забудьте  подписаться на обновления !

[note]

Новый марафон кроссвордов «Эрудит — 4» стартует 15 июля! Темы кроссвордов будут самые разнообразные, надеюсь, победители и участники предыдущих конкурсов примут участие в новом марафоне и поборются за призовые места. Кроссвордов будет 7 и призы указаны на странице конкурса кроссвордов . Если у вебмастеров есть возможность анонсировать марафон на своем блоге, буду очень признателен.

[/note]

Делитесь своим опытом по удалению дублей страниц, какие у вас результаты, если что не получается, пишите в комментариях, обсудим.

До встречи!

Интересные статьи по теме:

Как правильно давать и удалять анонсы в subscribe.ru

смешные поисковые запросы читателей блога

Внешняя оптимизация сайта

Внутренняя оптимизация сайта – основные моменты

Как очистить свой компьютер от мусора?

С уважением, Вилков Николай

Все статьи блога

Хотите в числе первых узнавать о новых статьях и курсах?

Подпишитесь на обновления моего блога и мой канал на YouTube
Если статья вам понравилась, поделитесь с друзьями в социальных сетях. Спасибо!

Николай Вилков:

View Comments (70)

    • Хорошо тем, кого эта проблема обошла стороной, у меня с дублями борьба идет с ноября 2013 года, до победы еще идти и идти :)

      • Дубли очень долго из индекса Гугл выпадают, от полугода до года. ;-)

  • Наконец-то нашел нормальное решение проблемы дублей на WordPress Спасибо! Буду теперь бороться! )

    • Владислав, буду рад помочь, делитесь результатами через время.

  • Тема старая, но нужная. Давно уже все проделал, кроме редиректа.
    Спасибо Николай за редирект, сегодня попробую поставить, посмотрю что получится.

    • Сергей, удачи!
      Если у вас ранее были редиректы в .htacces, на всякий случай создайте копию перед этим, мало ли. Или запомните строки, которые добавляли.

  • Тоже сейчас воюю с дублями После статьи Борисова этим по моему занялись все кому ни лень))

    • Я уже реально вижу результаты от его дельных советов.

  • User-agent: Mediapartners-Google
    Disallow:

    Почему добавлены эти строки? У Борисова их нет.

    • Они изначально были и у Александра, но потом их удалили, я исправил, спасибо за подсказку. Эти строки якобы оказывают влияние, если у вас стоит Google Adsence, дает рекламу по КС поста, но не все так однозначно оказалось и Александр эти строки посоветовал удалить.

  • Подскажите, пожалуйста, по поводу кода, вставляемого в function.php

    Мне он чего-й-то не понятен совсем ???
    Что в нём нужно изменить при вставке на свой сайт?

    • Вера, в коде, который вставляется в function.php ничего менять не нужно. Этот код убирает из дублей тег page, часто в индексе есть страницы вида site.ru/page8/optimizazija, например, вот они они и не должны учитываться при основной индексации поисковыми роботами.
      Данный код и поможет нам в этом. ;-)

    • Плагин No External Link закрывает ссылки на блоге, но делает это не корректно, он ссылку закрывает переадресацией. Наведите на любую ссылку, если у вас стоит плагин и увидите, что он добавляет строку site.ru:goto Поисковые роботы видят эту не корректную и не естесственную переадресацию и могут загонять под фильтры сайт и понижать его в выдаче по поисковым запросам. Я удаляю последствия установленного ранее плагина No External уже более недели и уже вижу положительный эффект и динамику улучшения трафика, хотя еще не все посты переделал (закрываю многие внешние ссылки от индексации вручную)

  • Вроде не новичок, вордпресс знаю неплохо, с дублями никогда проблем не было, но пару фишек не знал...
    Про рубрики и тэги скажу так, есть случаи когда их закрывать от индексации нельзя. Реально нельзя, например для магазинов категории товаров, они же намного релевантнее запросам чем карточки товаров, тут наоборот карточки лучше закрыть ( да-да и я не сошел с ума, на карточки товаров если их очень много переходят намного реже чем на страницы категорий ) Теги тоже можно в магазинах не закрывать, они с рубриками идеально дополняют друг друга, но тут надо с ЧПУ мудрить, то есть настроить так чтобы адреса страниц нормально отображались и не дублировали друг друга. А вот для блога всё верно, тут уж нечего добавить
    А архивы да, архивы зло!!!!!!!

    • Сергей, спасибо за дополнения, но я пока магазин не открывал и опыт небольшой только в ведении блога. В будущем мне это пригодится.

  • наконец то есть инфа о том что нужно закрывать постраничку от индекса.В прошлом году так ответа ни кто и не дал на этот вопрос. Спасибо Николай!

    • Это Александру Борисову спасибо за ценную информацию в новом курсе и на страницах блога. :razz:

    • Рад был помочь, если возникнут вопросы, пишите, Надежда.

Related Post