Индексация страниц дублей
Здравствуйте.
У меня есть статический сайт, собранный вручную, больше сотни страниц. Соответственно, когда появляются какие-то СЕО новшества, приходится сидеть и вручную изменять каждую страницу.
На днях вебмастер указал мне на дубли Заголовков и Описания для двух страниц:
https://www.world-nsp.ru/BAD/Katalog/Indol-3-Carbinol.htm
и
https://www.world-nsp.ru/BAD/Katalog/Indol-3-Carbinol.htm?tid=999315164
Понятно, что первая страница моя, а вторая это уже продукт самого интернета и его сервисов. И понятно, то эта проблема решается добавлением на страницу "canonical"
Но отсюда возникает справедливый вопрос: "А для чего когда-то создавался и внедрялся sitemap.xml? Почему яндекс не учитывает содержимое этого файла, когда начинает добавлять в поиск страницы-дубли???"
Здравствуйте, Дмитрий! Если вы заметите в статистике обхода ссылки, которые не хотели бы индексировать, запретите их индексирование в файле robots.txt вашего сайта.
Если о таких ссылках робот узнал от сторонних сайтов, обратитесь, пожалуйста, к владельцам этих сайтов с просьбой удалить или исправить эти ссылки. Мы являемся лишь принимающей стороной и не можем никак влиять на контент страниц сайтов, такие настройки производятся на стороне сервера. Если ссылка доступна, то она вполне может попасть в базу робота и он может к ней обращаться.
Что же касается файла sitemap, он не является строгим указанием, какие ссылки роботу индексировать, а какие нет — для этого нужен файл robots.txt. Sitemap лишь указывает роботу на утверждённый вами список рекомендуемых к обходу страниц. Появлением в базе робота и в поисковой выдаче многие страницы обязаны именно файлу sitemap.