Сканирование (Crawling)

Первый шаг поискового алгоритма: как роботы находят и обходят страницы. Управление краулинговым бюджетом и влияние на индексацию.

Кратко

Сканирование (Crawling) — процесс обнаружения и обхода страниц поисковым роботом (Googlebot, Bingbot и др.). Бот переходит по ссылкам, чтобы собирать информацию для последующей индексации.

Как работает сканирование

Поисковый робот начинает с известных URL (sitemap.xml, ссылки с других сайтов) и движется по внутренним и внешним ссылкам. Каждая найденная страница попадает в очередь на обработку для индексации.

Краулинговый бюджет

Для крупных сайтов (10 тыс.+ страниц) ресурсы бота ограничены. Если бот тратит время на сканирование мусора (дубли, сессии, фильтры), он может не успеть обойти важные новые страницы. Краулинговый бюджет — это комбинация частоты (как часто бот заходит) и количества URL, которые он готов просканировать за один сеанс.

Управление краулингом

Основные рычаги:

  • robots.txt — запрет на сканирование ненужных разделов.
  • Clean коды ответа — 200 для нужных страниц, 404/301 для ненужных.
  • Sitemap.xml — подсказка, какие страницы обходить в первую очередь.
  • Canonical — указание предпочтительного URL, чтобы бот не тратил время на дубли.
  • Лог-анализ — изучение того, какие страницы реально обходит бот.
Сканирование не гарантирует индексацию. После обхода страница проходит этап оценки и может быть не включена в индекс.

Частые вопросы

Сканирование — это обход и загрузка страницы, индексация — её анализ и добавление в базу данных для участия в поиске.
Зависит от авторитетности, частоты обновлений и размера сайта. От нескольких раз в день до раз в несколько недель.
Подайте sitemap в Search Console, используйте инструмент проверки URL и получите несколько внешних ссылок.
Проверьте robots.txt, исключите параметры фильтров в поисковом кабинете, настройте canonical.
Прямые контакты

Обсудим ваш проект?

Расскажите о целях и сайте — предложу формат работы и следующий шаг.