Индексация страниц дублей
Здравствуйте.
У меня есть статический сайт, собранный вручную, больше сотни страниц. Соответственно, когда появляются какие-то СЕО новшества, приходится сидеть и вручную изменять каждую страницу.
На днях вебмастер указал мне на дубли Заголовков и Описания для двух страниц:
https://www.world-nsp.ru/BAD/Katalog/Indol-3-Carbinol.htm
и
https://www.world-nsp.ru/BAD/Katalog/Indol-3-Carbinol.htm?tid=999315164
Понятно, что первая страница моя, а вторая это уже продукт самого интернета и его сервисов. И понятно, то эта проблема решается добавлением на страницу "canonical"
Но отсюда возникает справедливый вопрос: "А для чего когда-то создавался и внедрялся sitemap.xml? Почему яндекс не учитывает содержимое этого файла, когда начинает добавлять в поиск страницы-дубли???"
Извините, что задержался с ответом, Дмитрий. Подобное правило действительно могло бы помочь некоторым веб-программистам. Передал разработчикам вашу идею, а они определят, сможет ли она быть реализована в текущей архитектуре сервиса.
Отмечу, что сам Sitemap как инструмент не предназначен для ограничения индексирования страниц, однако установить запрет к индексации прямо сейчас возможно через robot.txt. Поисковой робот индексирует все ссылки, которые удаётся найти в интернете.
Если какие-то страницы не должны индексироваться, вы можете настроить на сервере http-код 404 для ссылок с неподдерживаемыми параметрами. Тогда робот не будет включать их в поиск, и со временем перестанет к ним обращаться.