Место для ваших идей

Оставляйте пожелания по работе Вебмастера

Индексация страниц дублей

Avatar
  • обновлен

Здравствуйте.

У меня есть статический сайт, собранный вручную, больше сотни страниц. Соответственно, когда появляются какие-то СЕО новшества, приходится сидеть и вручную изменять каждую страницу.

На днях вебмастер указал мне на дубли Заголовков и Описания для двух страниц:

https://www.world-nsp.ru/BAD/Katalog/Indol-3-Carbinol.htm

и

https://www.world-nsp.ru/BAD/Katalog/Indol-3-Carbinol.htm?tid=999315164


Понятно, что первая страница моя, а вторая это уже продукт самого интернета и его сервисов. И понятно, то эта проблема решается добавлением на страницу "canonical"

Но отсюда возникает справедливый вопрос: "А для чего когда-то создавался и внедрялся sitemap.xml? Почему яндекс не учитывает содержимое этого файла, когда начинает добавлять в поиск страницы-дубли???"

Avatar
Платон Щукин

Здравствуйте, Дмитрий! Если вы заметите в статистике обхода ссылки, которые не хотели бы индексировать, запретите их индексирование в файле robots.txt вашего сайта.

Если о таких ссылках робот узнал от сторонних сайтов, обратитесь, пожалуйста, к владельцам этих сайтов с просьбой удалить или исправить эти ссылки. Мы являемся лишь принимающей стороной и не можем никак влиять на контент страниц сайтов, такие настройки производятся на стороне сервера. Если ссылка доступна, то она вполне может попасть в базу робота и он может к ней обращаться.

Что же касается файла sitemap, он не является строгим указанием, какие ссылки роботу индексировать, а какие нет — для этого нужен файл robots.txt. Sitemap лишь указывает роботу на утверждённый вами список рекомендуемых к обходу страниц. Появлением в базе робота и в поисковой выдаче многие страницы обязаны именно файлу sitemap.

Avatar
Дмитрий Семаков

Вы просто прокомментировали, как на деле все работает и, с чем имеем дело мы - веб-програмисты.

Хорошая рекомендация: "Обращаться к владельцам других сайтов, чтобы они у себя удаляли ссылки-дубли..."

Серьезно? Тогда, пожалуйста, поудаляйте для одного из моих сайтов вот эти дубли: /In_The_Dark.html?from=webmaster

Я же в своем посту предложил достаточно простой способ, как облегчить жизнь всем веб-рограммистам - просто не индекcировать то, что не прописано в sitemap.xml.

Для этого можно в robots.txt придумать соответствующую команду для поисковых ботов, и у программистов появится дополнительный инструмент, как можно избавиться от страниц-дублей, особенно если у тебя небольшой сайт на несколько страниц.

Avatar
Платон Щукин

Извините, что задержался с ответом, Дмитрий. Подобное правило действительно могло бы помочь некоторым веб-программистам. Передал разработчикам вашу идею, а они определят, сможет ли она быть реализована в текущей архитектуре сервиса.

Отмечу, что сам Sitemap как инструмент не предназначен для ограничения индексирования страниц, однако установить запрет к индексации прямо сейчас возможно через robot.txt. Поисковой робот индексирует все ссылки, которые удаётся найти в интернете.

Если какие-то страницы не должны индексироваться, вы можете настроить на сервере http-код 404 для ссылок с неподдерживаемыми параметрами. Тогда робот не будет включать их в поиск, и со временем перестанет к ним обращаться.