X
    Categories: Новости

Как проверить свой сайт на дубли страниц и затем их удалить

Приветствую, друзья!

Сегодня хочу поговорить вновь про дубли страниц, расскажу о том, как проверить свой сайт на дубли страниц и удалить дублированные страницы из индекса Google. Напомню, что я веду свой блог уже более года, пишу оптимизированные уникальные заметки, полезные для читателей, провожу конкурсы, уделяю достаточно времени своему блогу, но до сих пор топчусь на месте, движения вперед по посещаемости нет. По поисковым запросам, которые я продвигаю также движение нулевое.

Вот и решил я заняться поиском причин, которые мешают моему блогу ехать вперед.Такое ощущение, что какой-то лишний груз висит на сайте и мешает его разогнать или развивать дальше. Для начала нужно найти причину замедления развития, а затем искать пути избавления от этой проблемы.

Сначала я избавился от дублей replytocom , которые вызваны особенностями движка WordPress, точнее, древовидными комментариями. Напомню. что лишние страницы ( или “сопли”, как говорят вебмастера ) удалялись из индекса Google около 6 месяцев. Я ждал, что из оставшихся 1020 страниц удалятся и оставшиеся, и картина с индексацией Google улучшится, но, цифра 1020 не меняется, хотя Яндекс индексирует всего 160 страниц моего блога. Как же быть, что делать дальше, думал я…

Как проверить сайт на дубли страниц

Для начала проанализируйте свой сайт, если у вас, примеру,  100 записей+ 10 страниц+ еще 10-20 скрытых страниц, то допускаем, что в индексе должны быть порядка 120-140 страниц. Сразу, оговорюсь, это при условии, если все страницы в индексе поисковых роботов! ( как повысить индексацию сайта ).

Анализ можно провести при помощи бесплатной программы Site auditor   скачайте свежую версию программы, внесите url своего сайта и проведите “Экспресс-анализ”, нажав кнопку “Проверить”.

Есть вариант надежней – зарегистрируйте свой блог в кабинете для вебмастеров для Яндекс и Google и проверьте количество проиндексированных страниц. Если Яндекс покажет, к примеру 125, а Гугл более 200, а может и более 1000, то у вас есть дублированные страницы, с которыми необходимо бороться.

Для этого вы должны поочередно ввести следующие поисковые запросы в Google и проанализировать в дальнейшем. Итак вот запросы, только вместо mysite.com не забудьте ввести URL своего сайта

 

site:mysait.com feed
 site:mysait.com tag
 site:mysait.com attachment
 site:mysait.com attachment_id
 site:mysait.com page
 site:mysait.com category
 site:mysait.com comment-page
 site:mysait.com trackback

В моем случае, я ввожу site:rabotaiuspeh.com feed, затем вторую строку и так далее…
Мои результаты:
По запросу Feef – 6 страниц, норма
По запросу tag – 24 страницы, нужно почистить немного, теги я прописывал для постов только в самом начала ведения блога, потом перестал.

По запросу – attachment,attachment_id, comment-page, trackback  – ничего не нашел

По запросу – page – 7 результатов, нужно их убрать из индекса

По запросу category получилось аж 51 вариант, это явный перебор, поскольку рубрик у меня 10 и 3 я убрал ранее, точней объединил несколько рубрик.

У кого то эти показатели и соотношение будет другим, зависит от шаблона, плагинов, валидности кода и так далее, не важно. После того, как вы знаете, какие бяки у вас сидят и создают дублированные страницы, пора заняться ими вплотную и удалить.

Как удалить дубли страниц на сайте

  1. Меняем robots.txt коренным образом

Ранее я писал подробную заметку о том, что такое файл robots.txt, для чего он нужен и как должен выглядеть правильный robots.txt (подробно про robots.txt ). Но это было в том случае, что у вас с сайтом все в порядке и дублей нет.

Если же у вас есть дубли страниц, тогда мы находим в корневой папке файл robots.txt, жмем “редактировать”, удаляем ВСЕ, что было ранее и вставляем следующие строки:

User-agent: * 
Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins 
Disallow: /wp-content/cache 
Disallow: /wp-content/themes 
Host: mysite.com 
Sitemap: http://mysite.com/sitemap.xml 
User-agent: Googlebot-Image 
Allow: /wp-content/uploads/ User-agent: YandexImages 
Allow: /wp-content/uploads/

Только не забудьте вместо mysite.ru в двух местах изменить url на свой корректный!

Если у вас еще нет карты сайта в формате sitemap.xml, почитайте заметку, в которой все подробно рассказываю и сделайте у себя, это важно!

После этого сохраните robots.txt. Для чего мы это сделали? Мы открываем все ранее закрытые для индексации страницы, которые создавали дубли страниц ля поисковика Google. После анализа он должен со временем выкинуть лишние страницы. Идем дальше.

2.  Делаем редирект, вносим изменения в .htacces

Для того, чтобы читатели, которые пришли на блог со страниц с дублями не попадали на страницу с ошибкой 404, мы и делаем данную переадресацию. Теперь они должны будут переадресовываться на главные страницы запроса.

Зайдите в корневую папку, затем /wp-content/ => /themes/=>/ваша действующая тема/ и найдите файл .htacces и добавьте в него следующие строки:

RewriteRule (.+)/feed /$1 [R=301,L] 
RewriteRule (.+)/comment-page /$1 [R=301,L] 
RewriteRule (.+)/trackback /$1 [R=301,L] 
RewriteRule (.+)/comments /$1 [R=301,L] 
RewriteRule (.+)/attachment /$1 [R=301,L] 
RewriteCond %{QUERY_STRING} ^attachment_id= [NC] 
RewriteRule (.*) $1? [R=301,L]

Если файла .htacces вы не нашли, создайте простой текстовый документ, вставьте содержимое и загрузите в папку с вашей темой.

3. Вставляем код в function.php 

Данный код также поможет удалить лишние “сопли” из индекса Google, в частности, станицы с тегами page, для меня это актуально.

Зайдите в папку со своей темой и найдите файл function.php, откройте его и вверху сразу после тега <?php, вставьте код:

/*** ДОБАВЛЯЕМ meta robots noindex,nofollow ДЛЯ СТРАНИЦ ***/ 
function my_meta_noindex () { 
if (
 is_paged() // Все и любые страницы пагинации )
 {echo "".'<meta name="robots" content="noindex,nofollow" />'."\n";} } 
add_action('wp_head', 'my_meta_noindex', 3); 
// добавляем свой noindex,nofollow в head

4.  Изменяем настройки индексирования в плагине All in seo puck

Если у вас установлен плагин All in Seo Puck, зайдите в админку блога “Инструменты SEO”, выбираем раздел “Основные” , скролим вниз, находим “Настройки индексирования” (noindex) и делаем так, как показано на скрине:

5. Изменяем настройки редактирования на блоге

Если у вас древовидные комментарии реализованы на блоги свои, родные и стоит галочка на “разрешить древовидные комментарии”, тогда вам нужно убрать галочку в чекбоксе ниже, напротив “разбивать комментарии на странице”

 

У меня, например, для древовидных комментариев стоит плагин и в админке они отключены и галочка, соответственно, которую нужно убрать и так не стояла. В общем, думаю, тут всё понятно – если  стояла – убираем, если не было, ничего не делайте в этом пункте.

Вот и всё, друзья! Теперь остается только ждать и заходить раз в несколько дней в кабинет Google вебмастер и просматривать динамику изменения страниц в индексе.

Вот какая картина наблюдается у меня, буду ждать, когда количество страниц в Гугл будет реальным и уменьшится до вменяемого количества.

Положительная динамика на лицо (количество страниц в индексе уменьшается), буду ждать улучшения отношения ко мне поисковой системы Google. Плюс к этому, я по советы Александра Борисова, удалил у себя плагин No external Link и уже более недели занимаюсь редактированием всех заметок, написанных ранее.

Своим опытом поделюсь с вами в ближайшее время, не забудьте  подписаться на обновления !

Новый марафон кроссвордов “Эрудит – 4” стартует 15 июля! Темы кроссвордов будут самые разнообразные, надеюсь, победители и участники предыдущих конкурсов примут участие в новом марафоне и поборются за призовые места. Кроссвордов будет 7 и призы указаны на странице конкурса кроссвордов . Если у вебмастеров есть возможность анонсировать марафон на своем блоге, буду очень признателен.

Делитесь своим опытом по удалению дублей страниц, какие у вас результаты, если что не получается, пишите в комментариях, обсудим.

До встречи!

Интересные статьи по теме:

Как правильно давать и удалять анонсы в subscribe.ru

смешные поисковые запросы читателей блога

Внешняя оптимизация сайта

Внутренняя оптимизация сайта – основные моменты

Как очистить свой компьютер от мусора?

С уважением, Вилков Николай

Все статьи блога

Хотите в числе первых узнавать о новых статьях и курсах?

Подпишитесь на обновления моего блога и мой канал на YouTube
Если статья вам понравилась, поделитесь с друзьями в социальных сетях. Спасибо!

Николай Вилков :

View Comments (70)

  • Конечно, если блог на WP, то с дублями просто справиться (согласно прямым инструкциям) - но вот что же делать мне, если у меня блог на Joomla (чур, возвращаться на WP не предлагать!).

    • На Joomla говорят, все намного сложней с дублями. Это нужно искать инструкции для своего движка, в нем я не особо разбираюсь.

  • Спасибо, Николай! Всё подробно и понятно - по пунктикам. Дубли страниц - это проблема многих блогеров, мне тоже надо их убрать)Буду разбираться)

    • Лара, давайте растворять дубли вместе, если будут вопросы, пишите!

  • Николай, спасибо. На днях хочу заняться этим вопросом, если будут вопросы - буду обращаться)))

    • Лара, не затягивайте с этим делом, если у вас есть дубли, конечно же :) У вас Яндекс индексирует 274 страницы, а Гугл 1360, есть повод задуматься...

  • Эти дубли,я запретил индексировать, а вернее открыл, где-то недели две назад по совету другого блоггера. Теперь жду, когда все дубли улетят с поисковой выдачи.

    • Я полгода ждал, пока не увидел результат, медленно из индекса Google они выползают, особенно replytocom/

  • Популярная тема на данный момент! Вот тоже недавно все закрыл и теперь веду наблюдение...=)

    • Vlad, делитесь опытом и результатами своими:)

      • Пока что-то сложно говорить! Там пока все нестабильно: то меньше - то больше... ;-)

        • Нужно скриншот сделать в определенный день и сравнить через месяц показатели, тогда и динамику видно будет.

  • У меня уже и проверять нечего особо, блог слетел мой. Обидно, хоть там и мало, что было, но был дизайн настроенный. Ладно, восстановлю заново.) Спасибо за статью, Николай! На будущее очень пригодится, а лучше бы сразу как-то избегать этих дублей, чтобы они и не появлялись.)

    • А я то думал почему вы ссылку на левый блог ставите, но потом все-таки и на ваш нашел... А что возникли сложности с восстановлением?

  • Где-то два месяца назад у Саши Борисова я читала статью про дубли. После проверки я обнаружила в доп.индексе Гугла кучу страниц, после внесения поправок - дубли стали уходить. На сегодняшний день осталось только две страницы фида.
    А вот насчет плагина No external Link я не знала, у меня он и сейчас стоит :shock: Придется удалять и делать все ручками.
    Что касается плагина All in Seo, то я его снесла, опять же таки после прочтения статьи Борисова и поставила Платину. Вы наверняка тоже читали эту статью? Вас коснулась эта проблема?

    • А вообще, All In One SEO Pack просто очень удобный и я к нему привык, вот и начал искать другие способы решения данной проблемы!

      Да все падали! ;-)

      • Меня также полностью All in Seo устраивает, так что я не спешил его менять на платину и правильно сделал)) ;-)

    • Все так сразу рванули за Борисовым, начали сносить плагины, обживаться новыми проблемами и т.д.

      P.S. Это насчет плагина All In One SEO Pack.

      А нужно было просто немного подождать и появились бы более универсальные способы.

      Кстати, они появились!

      Да я тоже зашел прочитал статью, но только где-то через неделю начал искать ответы и производить настройки!

      Не нужно гнаться за последними обновлениями! ;-)

      • Молодец Оксана,правильно написали.
        На ошибках учатся,но лучше учиться на чужих. :mrgreen:

      • Что поделаешь, не все такие предусмотрительные как вы)))) ;-) ;-) ;-) Но думаю со временем я тоже этому научусь))) Вы ведь когда ходить учились в детстве, тоже падали?

    • Оксана, я консерватор и не тороплюсь сразу рубить с плеча. Я уже не раз замечал, что Александр Борисов порою слишком эмоционально подходит к некоторым довольно простым вещам и действует очень кардинально, причем дает призыв к действию всем читателям. Я не торопился и нашел замечательное решение, о котором писал Дмитрий на блоге ideafox.ru, выполнил я эти действия за 10 минут и всё работает, а вот как теперь вам быть с платиной, не знаю, поскольку этот плагин давно не обновляют.

      • Да мне просто лень было настраивать! :smile:

        P.S. Шутка, а может и нет... ;-)

  • Да-а-а, где же Дима раньше-то был? Прочитала его статью о которой вы говорили. Ну что же, что сделано -то сделано, всего не предусмотришь. В принципе, статей у меня порядка 50 штук, можно и руками переписать метатеги, но думаю ПС это не понравится. Так что будем надеяться что Платина не подведет. Ну даже если что-то пойдет с ней не так, я думаю Борисов все равно чего-нибудь придумает, правда? ;-) ;-) ;-)

    • Говорят, если добавить к отдельной странице ("о сайте", "карта сайта" и т.д.) слеш и цифры, а потом посмотреть исходный код этой страницы, то тогда в плагине Platinum SEO можно увидеть ссылку с canonical, а также мета тег роботс index,follow, то есть указание поисковым роботам индексировать эту страницу.

    • Читал, что в Платине и так есть проблемы - не решается проблема отдельных страниц...

      • Vlad, что именно вы имеете ввиду, какие проблемы со страницами? Можно подробнее с этого места? Может я чего-то не заметила. Пока у себя на сайте я не столкнулась с проблемами.

    • Это характерная черта для большого количества людей: сначала мы любим создавать себе проблемы, зато потом их героически решаем и гордимся собой)) Нужно научится не создавать лишних проблем, вот этому необходимо учиться.

      • Я думаю, что в любом случае паниковать не стоит. Ведь не факт, что с Платиной могут возникнуть проблемы, мы ведь с вами этого знать не можем.)))) А научиться в этой жизни нужно еще очень многому, я как начинающий блогер это прекрасно понимаю. Если бы я все знала про блоговедение, то использовала бы СВОИ знания, а не искала бы ответы на вопросы в других блогах и выполняя рекомендации авторитетных блогеров.)))

  • Сейчас пойду блог на дубли проверять.
    Благодарю за информацию.

    • Блог на дубли проверил,благодаря вашим советам подправил.
      Теперь надо собраться и переделать старые статьи,пока их мало. Как представлю сколько работы предстоит,тошно делается :mrgreen:

      • Ничего, главное каждый день делать маленький шажок но вперёд)) Глаза боятся, а руки делают, планирование очень помогает в такой работе и намечать объем работы.

  • "Глаза боятся, а руки делают" - где-то эти слова я уже сегодня слышал... :smile: