Qu’est-ce que le budget de crawl de Google ?

Le budget crawl est très important, il influence l’optimisation de référencement naturel de vos pages pour les moteurs de recherche. Il dépend de nombreux facteurs, et l’expérience utilisateur liée à la performance web, est prise en compte.

Google a défini la notion de budget d’analyse des sites (le budget crawl).

Toutes les pages d’un site sont presque toujours analysées par son robot de Google, Googlebot, qui crawle les sites. Mais le budget d’exploration de Google est utilisé selon plusieurs critères.

Google définit par ordre de priorité les ressources à analyser, et à quel moment il les analyse.

Pour les sites à forte volumétrie et ceux qui ont des pages générées dynamiquement en fonction des URLs, Google tient compte des ressources que le serveur hébergeant le site peut allouer à l’analyse (au crawl).

Limite du taux d’analyse des sites Web

La priorité principale de Googlebot est le crawling du site. Lors de l’analyse des sites, il veille à l’expérience utilisateur. Ces facteurs le conduisent donc à fixer une limite du taux d’analyse en limitant le taux d’extraction maximale pour un site donné.

Cela représente le nombre de connexions parallèles simultanées que le robot peut utiliser pour crawler le site, ainsi que le temps qu’il doit attendre entre les extractions. Le taux d’analyse peut varier en fonction de deux paramètres :

  • L’analyse de la performance du site : si le site est rapide pendant un temps donnée, la limite du budget d’analyse augmente : Google allouera plus de connexions pour explorer votre site. A contrario, si le site est lent, répond avec erreurs serveurs, la limite du budget diminuera et Googlebot visitera moins votre site.
  • La limite définie dans la Search Console : les propriétaires de sites Web peuvent réduire l’exploration de leur site par Googlebot. Néanmoins, la définition de limites supérieures n’augmentera pas automatiquement l’analyse de votre site web.

L’analyse des logs serveurs permet de connaître les passages des crawlers (Googlebot, Bingbot), et par conséquent de savoir les pages qui sont les plus visitées, celles qui le sont moins. D’autre part, le crawl effectué lors de l’audit technique de référencement naturel, permet de détecter entre autres, les erreurs serveurs.

Demande d’exploration

Même si la limite du taux de crawl n’est pas atteinte, si aucune demande d’indexation n’est faite, l’activité de Googlebot sera faible. Deux facteurs jouent un rôle important dans la détermination de la demande d’exploration :

  • La popularité : les URLs plus populaires sur Internet ont tendance à être explorées plus souvent afin de les actualiser dans l’index de Google. D’où l’importance d’une stratégie de netlinking et de notoriété.
  • Le manque de fraîcheur : Google empêche les URLs de devenir obsolètes dans l’index.

La combinaison du taux d’analyse et de la demande de l’analyse définissent le budget d’analyse qui se traduit par le nombre d’URLs que GoogleBot peut et souhaite analyser.

Pour favoriser le crawl de son site, il ya des écueils à éviter.

Facteurs négatifs pour le budget de crawl de Google

Google indique qu’avoir de nombreuses URLs à faible valeur ajoutée peut avoir un impact négatif sur l’analyse et l’indexation d’un site.

Google a listé les types d’URLs à faible valeur ajoutée :

  • Navigation à facettes et les identifiants de session (notamment sur les sites e-commerce)
  • Contenu dupliqué sur site
  • Pages d’erreur telles que les 404 (« 404 soft » page non trouvée)
  • Pages piratées
  • Espaces infinis et procurations : des liens qui n’apportent pas de nouveau contenus à explorer. Exemple : les calendriers avec “mois prochain”, les filtres sur les sites marchands.
  • Contenu de qualité médiocre et spamming

Google ne va pas gaspiller ses ressources serveur sur ces types de pages. Il faut donc corriger ces erreurs afin d’avoir un bon budget de crawl.

A retenir : l’analyse est le point d’entrée des sites dans les résultats de recherche de Google. L’exploration efficace d’un site Web facilite son indexation et son exploration.

Nous analysons vos fichiers de logs serveurs afin de connaître les pages qui nuisent à l’indexation de votre site.