X
    Categories: Новости

Как проверить свой сайт на дубли страниц и затем их удалить

Приветствую, друзья!

Сегодня хочу поговорить вновь про дубли страниц, расскажу о том, как проверить свой сайт на дубли страниц и удалить дублированные страницы из индекса Google. Напомню, что я веду свой блог уже более года, пишу оптимизированные уникальные заметки, полезные для читателей, провожу конкурсы, уделяю достаточно времени своему блогу, но до сих пор топчусь на месте, движения вперед по посещаемости нет. По поисковым запросам, которые я продвигаю также движение нулевое.

Вот и решил я заняться поиском причин, которые мешают моему блогу ехать вперед.Такое ощущение, что какой-то лишний груз висит на сайте и мешает его разогнать или развивать дальше. Для начала нужно найти причину замедления развития, а затем искать пути избавления от этой проблемы.

Сначала я избавился от дублей replytocom , которые вызваны особенностями движка WordPress, точнее, древовидными комментариями. Напомню. что лишние страницы ( или «сопли», как говорят вебмастера ) удалялись из индекса Google около 6 месяцев. Я ждал, что из оставшихся 1020 страниц удалятся и оставшиеся, и картина с индексацией Google улучшится, но, цифра 1020 не меняется, хотя Яндекс индексирует всего 160 страниц моего блога. Как же быть, что делать дальше, думал я…

Как проверить сайт на дубли страниц

Для начала проанализируйте свой сайт, если у вас, примеру,  100 записей+ 10 страниц+ еще 10-20 скрытых страниц, то допускаем, что в индексе должны быть порядка 120-140 страниц. Сразу, оговорюсь, это при условии, если все страницы в индексе поисковых роботов! ( как повысить индексацию сайта ).

Анализ можно провести при помощи бесплатной программы Site auditor   скачайте свежую версию программы, внесите url своего сайта и проведите «Экспресс-анализ», нажав кнопку «Проверить».

Есть вариант надежней — зарегистрируйте свой блог в кабинете для вебмастеров для Яндекс и Google и проверьте количество проиндексированных страниц. Если Яндекс покажет, к примеру 125, а Гугл более 200, а может и более 1000, то у вас есть дублированные страницы, с которыми необходимо бороться.

Для этого вы должны поочередно ввести следующие поисковые запросы в Google и проанализировать в дальнейшем. Итак вот запросы, только вместо mysite.com не забудьте ввести URL своего сайта

 

site:mysait.com feed
 site:mysait.com tag
 site:mysait.com attachment
 site:mysait.com attachment_id
 site:mysait.com page
 site:mysait.com category
 site:mysait.com comment-page
 site:mysait.com trackback

В моем случае, я ввожу site:rabotaiuspeh.com feed, затем вторую строку и так далее…
Мои результаты:
По запросу Feef — 6 страниц, норма
По запросу tag — 24 страницы, нужно почистить немного, теги я прописывал для постов только в самом начала ведения блога, потом перестал.

По запросу — attachment,attachment_id, comment-page, trackback  — ничего не нашел

По запросу — page — 7 результатов, нужно их убрать из индекса

По запросу category получилось аж 51 вариант, это явный перебор, поскольку рубрик у меня 10 и 3 я убрал ранее, точней объединил несколько рубрик.

У кого то эти показатели и соотношение будет другим, зависит от шаблона, плагинов, валидности кода и так далее, не важно. После того, как вы знаете, какие бяки у вас сидят и создают дублированные страницы, пора заняться ими вплотную и удалить.

Как удалить дубли страниц на сайте

  1. Меняем robots.txt коренным образом

Ранее я писал подробную заметку о том, что такое файл robots.txt, для чего он нужен и как должен выглядеть правильный robots.txt (подробно про robots.txt ). Но это было в том случае, что у вас с сайтом все в порядке и дублей нет.

Если же у вас есть дубли страниц, тогда мы находим в корневой папке файл robots.txt, жмем «редактировать», удаляем ВСЕ, что было ранее и вставляем следующие строки:

User-agent: * 
Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins 
Disallow: /wp-content/cache 
Disallow: /wp-content/themes 
Host: mysite.com 
Sitemap: http://mysite.com/sitemap.xml 
User-agent: Googlebot-Image 
Allow: /wp-content/uploads/ User-agent: YandexImages 
Allow: /wp-content/uploads/

Только не забудьте вместо mysite.ru в двух местах изменить url на свой корректный!

Если у вас еще нет карты сайта в формате sitemap.xml, почитайте заметку, в которой все подробно рассказываю и сделайте у себя, это важно!

После этого сохраните robots.txt. Для чего мы это сделали? Мы открываем все ранее закрытые для индексации страницы, которые создавали дубли страниц ля поисковика Google. После анализа он должен со временем выкинуть лишние страницы. Идем дальше.

2.  Делаем редирект, вносим изменения в .htacces

Для того, чтобы читатели, которые пришли на блог со страниц с дублями не попадали на страницу с ошибкой 404, мы и делаем данную переадресацию. Теперь они должны будут переадресовываться на главные страницы запроса.

Зайдите в корневую папку, затем /wp-content/ => /themes/=>/ваша действующая тема/ и найдите файл .htacces и добавьте в него следующие строки:

RewriteRule (.+)/feed /$1 [R=301,L] 
RewriteRule (.+)/comment-page /$1 [R=301,L] 
RewriteRule (.+)/trackback /$1 [R=301,L] 
RewriteRule (.+)/comments /$1 [R=301,L] 
RewriteRule (.+)/attachment /$1 [R=301,L] 
RewriteCond %{QUERY_STRING} ^attachment_id= [NC] 
RewriteRule (.*) $1? [R=301,L]

Если файла .htacces вы не нашли, создайте простой текстовый документ, вставьте содержимое и загрузите в папку с вашей темой.

3. Вставляем код в function.php 

Данный код также поможет удалить лишние «сопли» из индекса Google, в частности, станицы с тегами page, для меня это актуально.

Зайдите в папку со своей темой и найдите файл function.php, откройте его и вверху сразу после тега <?php, вставьте код:

/*** ДОБАВЛЯЕМ meta robots noindex,nofollow ДЛЯ СТРАНИЦ ***/ 
function my_meta_noindex () { 
if (
 is_paged() // Все и любые страницы пагинации )
 {echo "".'<meta name="robots" content="noindex,nofollow" />'."\n";} } 
add_action('wp_head', 'my_meta_noindex', 3); 
// добавляем свой noindex,nofollow в head

4.  Изменяем настройки индексирования в плагине All in seo puck

Если у вас установлен плагин All in Seo Puck, зайдите в админку блога «Инструменты SEO», выбираем раздел «Основные» , скролим вниз, находим «Настройки индексирования» (noindex) и делаем так, как показано на скрине:

5. Изменяем настройки редактирования на блоге

Если у вас древовидные комментарии реализованы на блоги свои, родные и стоит галочка на «разрешить древовидные комментарии», тогда вам нужно убрать галочку в чекбоксе ниже, напротив «разбивать комментарии на странице»

 

У меня, например, для древовидных комментариев стоит плагин и в админке они отключены и галочка, соответственно, которую нужно убрать и так не стояла. В общем, думаю, тут всё понятно — если  стояла — убираем, если не было, ничего не делайте в этом пункте.

Вот и всё, друзья! Теперь остается только ждать и заходить раз в несколько дней в кабинет Google вебмастер и просматривать динамику изменения страниц в индексе.

Вот какая картина наблюдается у меня, буду ждать, когда количество страниц в Гугл будет реальным и уменьшится до вменяемого количества.

Положительная динамика на лицо (количество страниц в индексе уменьшается), буду ждать улучшения отношения ко мне поисковой системы Google. Плюс к этому, я по советы Александра Борисова, удалил у себя плагин No external Link и уже более недели занимаюсь редактированием всех заметок, написанных ранее.

Своим опытом поделюсь с вами в ближайшее время, не забудьте  подписаться на обновления !

[note]

Новый марафон кроссвордов «Эрудит — 4» стартует 15 июля! Темы кроссвордов будут самые разнообразные, надеюсь, победители и участники предыдущих конкурсов примут участие в новом марафоне и поборются за призовые места. Кроссвордов будет 7 и призы указаны на странице конкурса кроссвордов . Если у вебмастеров есть возможность анонсировать марафон на своем блоге, буду очень признателен.

[/note]

Делитесь своим опытом по удалению дублей страниц, какие у вас результаты, если что не получается, пишите в комментариях, обсудим.

До встречи!

Интересные статьи по теме:

Как правильно давать и удалять анонсы в subscribe.ru

смешные поисковые запросы читателей блога

Внешняя оптимизация сайта

Внутренняя оптимизация сайта – основные моменты

Как очистить свой компьютер от мусора?

С уважением, Вилков Николай

Все статьи блога

Хотите в числе первых узнавать о новых статьях и курсах?

Подпишитесь на обновления моего блога и мой канал на YouTube
Если статья вам понравилась, поделитесь с друзьями в социальных сетях. Спасибо!

Николай Вилков :