Краулинговый бюджет

Автор: Wmhost
Картинка блога

Краулинговый бюджет — это количество страниц, которое поисковая система может проанализировать за определенный период. Этот термин иногда используется взаимозаменяемо как бюджет сканирования сайта. Хотя сканирование и индексирование — это два разных понятия, поскольку последнее обычно происходит сразу после первого, такая терминология приемлема. Поисковые системы не имеют безграничных ресурсов, потому что они анализируют многочисленный контент с миллионов веб-сайтов. Гугл-ботам приходится как-то расставлять приоритеты в своих действиях — именно это и делается путем распределения бюджетов по отдельным сайтам.

В составлении бюджета есть два основных фактора:

• ограничение скорости сканирования;
• спрос на сканирование.

Как часто Google индексирует страницы?

Поскольку робот Googlebot может одновременно искать только ограниченный контент, он отдает приоритет тому, который должен быть проиндексирован больше всего. По этой причине Google отдает главной странице и страницам категорий высокого уровня наивысший приоритет. Их будут искать чаще всего, чтобы любые изменения отражались в поисковике. На практике такие сайты обычно сканируются раз в несколько дней, а в некоторых случаях даже чаще. В свою очередь, для некоторых типов сайтов этот процесс происходит раз в несколько недель. Точно определить скорость индексации во всех ситуациях сложно, так как здесь задействовано множество факторов.

Что влияет на краулинговый бюджет?

Если поисковая система не решит, что данная страница заслуживает внимания, активность робота Googlebot в ее случае будет низкой. На этот фактор больше всего влияют:

• популярность - часто посещаемые URL-адреса всегда должны быть актуальными, поэтому обновляйте их чаще, что связано с высоким бюджетом сканирования;
• частота изменений - приоритетом систем Google является не хранить в индексе устаревшие URL, поэтому страницы, на которых происходят частые изменения/правки, будут регулярно читаться.

Кроме того, на выделенный бюджет могут повлиять более крупные проекты, такие как миграция всего сайта. Конечно, этот сценарий значительно увеличивает спрос на индексацию. Технические факторы также оказывают существенное негативное влияние на бюджет:

• многогранная навигация - неправильно настроенные комбинации разных фильтров могут привести к дублированию контента и общей путанице, что затрудняет сканирование ботами;
• идентификаторы сеанса - когда информация о пользователе или информация об отслеживании сохраняются с использованием параметров URL-адреса;
• дублирование контента - когда Google индексирует идентичный контент по разным URL-адресам, «разбавлением» является значение ссылок;
• ложные страницы (soft 404) - правильное сообщение о несуществующих страницах с кодами 404 или 410 способно улучшить охват индексацией лучшего контента на сайте;
• взломанные страницы - если Google подозревает, что данная страница была взломана, он не захочет выделять на нее краулинговый бюджет;
• бесконечные пробелы - этот термин относится к ситуации, когда данная страница создает практически бесконечную комбинацию ссылок;
• прокси-сервер - если перенаправления, созданные прокси-серверами, плохо настроены, они вызывают задержки в общении и передаче данных, которые тратятся впустую из краулингового бюджета;
• низкокачественный контент и спам.

Как улучшить краулинговый бюджет?

Есть несколько проверенных способов увеличить бюджет на индексацию:

1. Блокирование определенных разделов страницы

Если определенные разделы сайта не должны быть видны вашим посетителям, заблокируйте их с помощью файла robots.txt. Конечно, убедитесь, что сделали это, - вы определенно не захотите скрывать важный контент от Google. Позиционирование интернет-магазина может потребовать исключения из индексации некоторых фильтров товаров - ведь каждая комбинация создает потенциально новые ссылки.

2. Сокращение цепочек редиректов

Когда Google сталкивается с редиректом 301, он не всегда следует ему автоматически. Иногда он возвращается к нему только позже. Хотя у робота Google может быть бюджет, он просто не будет его использовать. Кроме того, цепочки перенаправления сами по себе проблематичны. Например, если веб-страница указывает на вариант без www, а затем HTTP-версия ссылается на HTTPS-версию, везде есть 2 промежуточные ссылки, что делает сканирование намного дольше.

3. Умелое использование внутренних ссылок

Хотя внутренние ссылки могут помочь в позиционировании веб-сайта, их следует использовать правильно. Убедитесь, что у вас много внутренних перенаправлений на самые важные страницы. Это будет сигналом для робота Googlebot, что он должен отдавать им приоритет. Однако не забывайте об этих менее важных подстраницах. Вы также должны создать несколько ссылок на них, чтобы они не были полностью забыты Google. Однако будьте осторожны здесь. Если вы начнете добавлять слишком много ссылок с целью продвижения этих страниц в целом, есть вероятность, что это окажет негативное влияние. Когда структура ссылок становится неорганизованной, робот Googlebot может начать тратить слишком много времени на второстепенные страницы, а некоторые из них могут вообще не открываться. С помощью такой ссылки вы также «читаете» более старый контент.