Non, Google ne passe pas plusieurs fois par jour sur toutes les pages et tous les sites. Internet est un univers si vaste et gigantesque qu’il est pratiquement impossible de comprendre l’ampleur des sites, des pages et toutes leurs ramifications. Ce qui complique le travail des moteurs de recherche. En effet, le web est bien trop vaste pour qu’ils puissent tout explorer et indexer.
Les moteurs de recherche comme Google doivent maintenir leur index à jour et s’assurer qu’il inclut toutes les pages et tous les contenus importants. C’est là que l’optimisation du budget de crawl s’avère utile. Découvrez dans cet article la définition et la clarification des concepts liés à la notion de crawl budget.
Sommaire
Le budget de crawl est le nombre maximal de pages qu’un moteur de recherche peut et veut explorer sur un site Web donné. Google détermine le budget d’exploration en pondérant la limite de vitesse d’exploration et la demande d’exploration.
Limite de vitesse d’exploration : la vitesse de vos pages, les erreurs d’exploration et la limite d’exploration peuvent toutes avoir un impact sur votre limite de vitesse d’exploration.
Demande d’exploration : la popularité de vos pages, tout comme leur fraîcheur, peut avoir un impact sur votre demande d’exploration.
Google dispose d’un budget fixe pour le nombre de pages que ses robots peuvent et veulent explorer sur chaque site présent sur le web.
Internet est vaste, et le Googlebot ne peut consacrer qu’un temps limité à l’exploration et à l’indexation de chaque adresse et URL. La gestion du budget d’exploration est importante, car elle permet aux pages d’un site Web d’être trouvées par les robots d’exploration. De plus, elle garantit que le nouveau contenu est identifié et indexé rapidement.
Si Google n’indexe pas une page, elle ne sera classée nulle part. Il est donc important de veiller à ce que les pages de votre site Web soient trouvées par les robots d’indexation et indexées. Cela, afin de lui donner une chance de se classer dans Google.
Pour déterminer les pages qu’il va visiter, sur combien de temps et à quelle fréquence, les robots d'indexation procèdent de différentes manières pour déterminer les pages à explorer prioritairement, dans quel ordre, ainsi que le moment d’arrêt de l’exploration. En bref, combien de temps va-t-il passer sur votre site, combien de pages va-t-il visiter, et quand reviendra-t-il ?
En utilisant la demande de crawl, le moteur de recherche décide quelles URLs méritent d’être crawlées ou recrawlées. C’est-à-dire visitées et revisitées.
Ce facteur dépend généralement de la popularité de la page ou du site, et de la fréquence à laquelle il est mis à jour. En effet, si la page a beaucoup de backlinks externes et de liens internes pointant vers elle, le moteur de recherche la priorisera. De même, la popularité de la page Web est mesurée par le nombre de requêtes pour lesquelles elle est classée dans les résultats de recherche.
“Nous répétons sans cesse qu’il est important d’apporter de la nouveauté à vos sites, de nouveaux articles, de nouveaux contenus. Cela participe justement à inviter les robots à revenir plus fréquemment.”
Ici, il faut se tourner vers la limite d’exploration. Si les URLs demandées d’un site Web renvoient fréquemment des erreurs de serveur ou des dépassements de délai, le crawl s’arrête et si vous avez un site internet large et dense, qui est hébergé sur un serveur partagé, votre limite d’exploration sera minimale. Dans ce cas, les moteurs de recherche arrêteront le crawl.
“C’est ici que le maillage prend toute son importance. Un maillage clair et précis, organisé en silo ou en cocon sémantique pour faciliter la visite. De même, une structure et une arborescence sur le site aident à la fois vos internautes… et les robots crawlers”
L'impact des budgets de crawl sur l'indexation des pages va dépendre de la façon dont le budget est utilisé. Si le budget est utilisé pour augmenter la fréquence des crawl des pages importantes et mises à jour fréquemment, cela peut améliorer l'indexation de ces pages.
A l’inverse, si le budget est utilisé pour crawler des pages qui ne sont pas importantes ou qui ne sont pas mises à jour fréquemment, cela pourrait entraîner une diminution de l'efficacité de l'indexation des pages importantes. Il est important de cibler les crawl sur les pages les plus importantes pour maximiser l'impact du budget de crawl sur l'indexation.
Bien que Google n’agissent pas toujours comme on l’aimerait, on peut en effet tenter d’influencer l'impact des budgets de crawl sur l'indexation des pages en utilisant des techniques telles que la méthode "crawl budget optimization", ou l'optimisation des budgets de crawl.
Cette pratique peut inclure des actions telles que :
En utilisant ces techniques, on peut influencer les moteurs de recherche pour qu'ils crawlent les pages les plus importantes et pertinentes pour le site, ce qui peut améliorer l'indexation et le classement des pages. Il est important de noter que chaque moteur de recherche a sa propre façon de traiter les informations et de prioriser les pages à crawler, il est donc important de se tenir informer des pratiques recommandées pour chacun d'eux.
Pour être indexé, il faut avoir reçu la visite du robot d’indexation, et que ce dernier ait référencé la page. Pour être indexé, il faut donc avoir bénéficié de crawl budget, puisque c’est le crawling qui permet l’indexation des pages.
Une page non indexée par les moteurs de recherche, n’apparaîtra pas sur les pages de résultats de recherche de la SERP. De même, si un site Web a beaucoup de pages, Google pourrait ne pas les indexer toutes. Et dans ce cas, l’optimisation du budget d’exploration est nécessaire. Elle permettrait alors d’intégrer les modifications apportées à une page qui apparaîtront donc rapidement dans les résultats de recherche.
Les budgets de crawl octroient une grande visibilité aux sites à travers leurs nombreuses interactions avec les SERP. De ce fait, elles indiquent à Google qu’une URL doit être explorée. Les budgets de crawl sont influencés par les nouveaux liens pointant vers le contenu, ou sa mise à jour dans le sitemap XML. Tout ceci contribue à l’exploration des sites par Google.
Avec leur utilité incontestable, les propriétaires de site se voient aujourd’hui dans l’obligation de bien gérer les budgets de crawl.
Le principal avantage de la Google Search Console est qu’elle vous avertit en cas de problème d’exploration de votre site. De plus, elle peut également résoudre les problèmes d’indexation de Google. Il suffit d’ajouter le plan du site de votre site, le célèbre Sitemap. Les crawlers parcourront automatiquement votre Sitemap au fil du temps et continueront d’indexer les pages de qualité les plus récentes de votre site Web.
Vous pouvez également demander une indexation manuelle, lorsque vous remarquez qu’une URL n’a pas encore été indexée.
Favoriser une bonne indexation des pages d’un site, et ainsi profiter au mieux du budget de crawl, regroupe un ensemble de bonnes pratiques.
Voici quelques bonnes pratiques à appliquer lorsque chaque mise en ligne ou intégration de nouveaux contenus :
Vous avez une myriade de solutions à votre portée pour assurer une meilleure optimisation de votre crawl budget.
Parmi la multitude d’actions possibles, nous recommandons :
L’exclusion des pages non importantes du crawling par le biais du fichier robots.txt (comme les pages de connexion, les formulaires de contact, les images). Une manière d’indiquer à Google de ne pas venir perdre de temps sur ces pages, et de dédier de préférence son temps ou budget aux pages prioritaires.
Avec ces actions, le classement de vos sites sera amélioré car vous aurez prioriser le temps de visite ou d’exploration des robots.
Lorsque les moteurs de recherche indexent votre site, ils vont passer du temps à l’explorer. Cela signifie qu’ils décideront du nombre de pages à parcourir et du temps pour le faire. Par exemple, vous êtes propriétaire d’une petite entreprise et votre site internet est constitué de 100 pages. Imaginons que vous avez un budget de crawl de 1000 pages. Cela signifie que vous pouvez toujours respecter votre budget de crawl si vous créez 900 nouvelles pages.
Un budget de crawl est alloué à chaque section de votre site. Ainsi, pour chaque section, les moteurs de recherche ont un nombre défini de pages à parcourir.
Une fois sur chacune de vos pages, le budget de crawl va permettre d’en identifier les parties importantes. Les balises Hn et la structure aide à s’y retrouver. On dit également que le haut des pages est souvent prioriser.
Alors que la gestion des budgets de crawl s’impose comme une nécessité, des difficultés émanent cependant de leur mise en place.
Le plus grand obstacle rencontré se trouve au niveau des ressources disponibles sur le site. Certains sites disposent d’un manque d’informations important, bien que les balises utilisées et les mots-clés suggèrent le contraire. Dans ce cas, le budget de crawl est inutilement gaspillé, et le trafic sur le site n’augmentera pas.
La complexité d’un site peut également affecter l’efficacité de la gestion des budgets de crawl. Un site avec beaucoup d’images et de vidéos, de balises et de nombreux liens sera plus complexe à gérer. Ainsi, il faudra optimiser les budgets de crawl afin de ne pas compromettre le référencement du site.
Google est le moteur de recherche prioritaire lorsque l’on parle de référencement (lien). Mais ce n’est pas pour autant que la gestion des budgets de crawl devrait s’appuyer uniquement sur ses exigences. Cependant, synchroniser les budgets de crawl entre Google et les autres moteurs de recherche compliquerait la donne. Nous choisirons alors de privilégier le moteur sur lequel nous voulons être référencé. Google ou un autre.
Les données de log du serveur contiennent des entrées concernant chaque visiteur de votre site internet, y compris Googlebot. En analysant vos journaux de serveur, vous pouvez trouver les informations exactes sur ce qui a été effectivement crawlé par Google. Cela suppose tous les JS, CSS, images et autres ressources.
Si, au lieu d’explorer votre précieux contenu, Googlebot s’égare, l’analyse des fichiers log vous le signalera afin que vous puissiez réagir en conséquence.
Pour obtenir un échantillon représentatif, vous devez extraire au moins trois semaines de données de journal, de préférence même davantage. Ainsi, vous connaîtrez les pages explorées en priorité et celles qui ont été ignorées. Mieux, les erreurs de crawl vous seront signalées. Ceci vous permettra de dynamiser à merveille votre site pour augmenter son trafic.
Pour l'optimisation de votre budget d’exploration, il faut veiller à ce que deux conditions soient bien respectées.
Tout lien brisé ou toute redirection est un cul-de-sac pour Googlebot. Lorsqu’il s’agit de liens brisés, le robot d’exploration peut considérer qu’il n’a nulle part où aller et se déplacer vers un autre site Web. Avec les redirections, il peut voyager à travers quelques sauts. Cependant, même Google recommande de ne pas dépasser cinq sauts, sinon le crawler passera à autre chose. Pour éviter ces problèmes, assurez-vous que toutes les URL redirigées pointent directement vers la destination finale, et réparez les liens cassés.
Un fichier robots.txt joue un rôle capital, il est utilisé pour empêcher les robots de surcharger les sites de requêtes. Mais il peut aider à éloigner Googlebot de certaines sections du site et à libérer le budget d’exploration.
Nous avons au sein de l’équipe une bonne pratique que nous n'omettons jamais.
Dès la mise en ligne ou l’intégration d’un nouveau contenu, article ou page, nous allons demander son indexation dans notre Google Search Console.
La page n’est évidemment pas encore indexée, sachant qu’elle vient d'être mise en ligne. Mais demander une indexation permet d’inviter le robot à venir la découvrir rapidement. Et habituellement, dès le lendemain, celle nouvelle page a été visitée et indexée.
Nous avons la même pratique lors d’un changement majeur sur une page ou un contenu. Des nouveaux paragraphes ajoutés, des métadonnées optimisées. Alors dès qu’un nouveau passage de Google se justifie, nous l’invitons à nouveau.
Ainsi, La Search Console doit vraiment devenir un réflexe quotidien pour tout nouveau contenu, de manière à ce que les robots soient à jour.
Comme pour le référencement technique, vous optimisez votre budget d’exploration au profit de votre référencement. Plus votre site internet est utilisable et accessible, plus il sera avantageux pour votre budget d’exploration, les utilisateurs et le référencement. Alors, chaque petit pas aide le référencement mais se débarrasser des erreurs d’exploration et d’indexation est l’étape la plus importante de l’optimisation du budget d’exploration.
En corrigeant ces erreurs, vous contribuerez à la santé globale de votre site Web. En comprenant comment fonctionne le budget d’exploration et comment il est calculé, vous aiderez à mieux décider quoi indexer et à quel moment. Tout ceci contribuera inévitablement à une expérience utilisateur peaufinée.
Nous sommes une agence marketing experte en référencement naturel pour les moteurs de recherche et algorithmie. Nous cherchons chaque jour à percer le fonctionnement des moteurs et développons au quotidien de nouvelles méthodologies pour optimiser nos résultats de référencement.
Merci de votre lecture,
L’équipe Sémantisseo