Сканирование (Crawling)
Первый шаг поискового алгоритма: как роботы находят и обходят страницы. Управление краулинговым бюджетом и влияние на индексацию.
Сканирование (Crawling) — процесс обнаружения и обхода страниц поисковым роботом (Googlebot, Bingbot и др.). Бот переходит по ссылкам, чтобы собирать информацию для последующей индексации.
Как работает сканирование
Поисковый робот начинает с известных URL (sitemap.xml, ссылки с других сайтов) и движется по внутренним и внешним ссылкам. Каждая найденная страница попадает в очередь на обработку для индексации.
Краулинговый бюджет
Для крупных сайтов (10 тыс.+ страниц) ресурсы бота ограничены. Если бот тратит время на сканирование мусора (дубли, сессии, фильтры), он может не успеть обойти важные новые страницы. Краулинговый бюджет — это комбинация частоты (как часто бот заходит) и количества URL, которые он готов просканировать за один сеанс.
Управление краулингом
Основные рычаги:
- robots.txt — запрет на сканирование ненужных разделов.
- Clean коды ответа — 200 для нужных страниц, 404/301 для ненужных.
- Sitemap.xml — подсказка, какие страницы обходить в первую очередь.
- Canonical — указание предпочтительного URL, чтобы бот не тратил время на дубли.
- Лог-анализ — изучение того, какие страницы реально обходит бот.
Частые вопросы
Обсудим ваш проект?
Расскажите о целях и сайте — предложу формат работы и следующий шаг.