Дублирование контента в E‑commerce

Проблема дублей в интернет-магазинах: один товар в нескольких категориях, фильтры, параметры сортировки и пагинация создают тысячи одинаковых URL.

Кратко

Duplicate Content в E‑commerce возникает, когда один и тот же контент доступен по множеству URL-адресов из-за особенностей CMS: множественные категории, фильтры, сортировки, параметры сессий и пагинация.

Что такое дублирование в e‑commerce

Дубли контента в магазинах. Товар в нескольких категориях, фильтры, вариации создают дубли. Duplicate Content в E‑commerce возникает когда один товар доступен по нескольким URL.

Источники дублей

  • Множественные категории — товар в 2–3 категориях
  • Фильтры — тысячи URL от комбинаций
  • Сортировка — ?sort=price, ?sort=name
  • Пагинация — ?page=2, ?page=3
  • Параметры сессии — ?sessionid=xxx
  • HTTP vs HTTPS — разные протоколы
  • WWW vs non‑WWW — разные версии

Примеры дублей

TEXT
/category1/product-name
/category2/product-name
/products/product-name
/products/product-name?color=red
/products/product-name?color=red&size=M

Решения

  • Множественные категории → Canonical на основную категорию
  • Фильтры → Canonical или noindex
  • Сортировка → Canonical на версию без параметра
  • Пагинация → rel="next"/"prev" или canonical
  • Параметры сессии → настройка параметров в GSC URL Parameters

Каноническая стратегия

HTML
<!-- Основной URL товара -->
<link rel="canonical" href="https://example.com/electronics/iphone-15-pro" />

<!-- На всех дублях (другие категории, фильтры) -->
<link rel="canonical" href="https://example.com/electronics/iphone-15-pro" />

Параметры URL в GSC

Google Search Console → Legacy tools → URL Parameters. Здесь можно указать, как Google должен обрабатывать параметры: sort — не меняет контент, page — пагинация, sessionid — не влияет на контент.

Используйте noindex на страницах с фильтрами, которые не имеют поискового спроса (например, нестандартные комбинации). Но не закрывайте от индексации популярные фильтры — они могут давать ценный трафик.

Частые вопросы

Для популярных фильтров (например, «красные кроссовки») лучше использовать canonical на основную версию, чтобы сохранить возможность ранжирования. Для непопулярных комбинаций — noindex.
Нет, запрет в robots.txt всё равно не экономит бюджет полностью и может привести к тому, что бот не увидит canonical. Лучше управлять через GSC URL Parameters и meta robots.
Google больше не поддерживает rel=next/prev, но иногда учитывает. Безопаснее использовать canonical на первую страницу для глубоких номеров страниц, но тогда вторая страница может не индексироваться. Альтернатива: оставить пагинацию без canonical, но закрыть глубокие страницы (например, page=100) через параметры URL в GSC.
Настройте 301 редирект с www на non‑www (или наоборот) и с http на https. Также пропишите canonical на предпочитаемую версию.
Используйте Screaming Frog (отчёт Duplicate Content), Google Search Console (отчёт Pages), а также проверьте, сколько страниц с одинаковыми заголовками и описаниями.
Прямые контакты

Обсудим ваш проект?

Расскажите о целях и сайте — предложу формат работы и следующий шаг.