Crawler un site web pour récupérer son historique

Accueil 9 NOS SOLUTIONS 9 Accompagnement Refonte/Migration 9 Récupération de l’historique

Crawler un site web en SEO est une action d’optimisation de la performance structurelle. Pour réaliser un crawl, l’expert SEO utilise un logiciel de crawl ou un crawler web. Ces robots d’exploration imitent les crawlers des moteurs de recherche (Googlebot de Google).

Pourquoi faut-il crawler un site web régulièrement ? Au fur et à mesure de l’ajout de pages dans un site, les erreurs surviennent. Analyser le site par le crawl permet de les identifier et de les corriger. Sans cette action SEO, le site peut être déclassé dans les pages de résultats de recherche.

Un robot de crawl utilisé en SEO clique sur les liens du site et extrait le code HTML. Pour crawler un site web, l’outil de crawl analyse le site en suivant la navigation naturelle. Dans son exploration du site, il utilise les liens d’arborescence. Le crawl d’un site web dresse ainsi un historique des événements.

Une technique de crawl voisine (le scraping) est utilisée par l’expert SEO pour préparer la migration ou la refonte de site. Les outils utilisés permettent de collecter les données d’un site web pour les intégrer dans un nouveau CMS.

Qu’est-ce qu’un crawl de site web ?

Crawler un site web relève du SEO technique. C’est une analyse dont la fonction est d’établir une image fidèle du site. L’expert SEO utilise le crawl pour identifier la structure du site, dresser le profil de liens et repérer les problèmes techniques. Ce sont les robots ou crawlers qui accomplissent le processus de crawl.

Déroulement du processus de crawl

Le logiciel de crawl ou spider réalise l’exploration du site en visitant les URLs, les fichiers CSS et Javascript. Les robots de crawl scannent aussi les pages d’autres sites reliées par les liens externes. L’outil télécharge tout le code HTML du site et rassemble ces informations. Il les télécharge ensuite au format SQL, XML ou EXCEL.

Utilité du crawl d’un site web

Crawler un site web en SEO a pour but d’optimiser le budget crawl. Le budget crawl est la ressource consacrée par les moteurs de recherche au crawler d’un site. Grâce au crawl, l’expert SEO fait en sorte que Googlebot n’utilise le budget crawl qu’à l’exploration des pages intéressantes du point de vue SEO. Crawler un site web permet de détecter des problèmes d’arborescence, d’interdiction de pages (robots.txt ou noindex) ou d’erreurs.

Récupérer les données des URLs

L’exploration du site par le spider (robot de crawl) fournit en une fois des informations détaillées des URLs. Il fournit par exemple le poids des images et le statut d’indexabilité (balise noindex). Le robot indique le nombre de mots, le code HTTP, le balisage de pagination. Les outils de crawl affichent une vue récapitulative des problèmes du site. Deux grandes familles de données sont intéressantes pour le SEO.

Durée de chargement des pages et erreurs

Un crawl de site standard fournit des informations sur la durée de chargement des pages. C’est une donnée clé qui pèse dans la performance du site. Le crawl remonte également les erreurs 3xx et 4xx URL par URL. Crawler un site web permet de connaître le nombre d’URL indexables. Le crawl liste aussi les pages ayant plusieurs meta descriptions.

Profondeur des pages, balises de pagination et liens

Crawler un site web établit la profondeur du site internet. Les crawlers donnent le nombre de clics nécessaires (ou les niveaux du site) pour accéder à la page la plus profonde depuis la page d’accueil. Le crawl pointe les problèmes de balises de pagination (trop longues, trop courtes, H1 manquant) et les problèmes de liens (nofollow, ancre non descriptive).

Vous souhaitez faciliter l’indexation de vos pages par les moteurs de recherche ? Crawler votre site web permet d’analyser le contenu de votre site et de l’ajouter aux résultats de recherche. Contactez-nous pour en savoir plus sur la façon dont nous pouvons vous aider à optimiser votre site.

Work with us!

Analyser les informations du crawl

L’expert SEO utilise un tableur et des tableaux dynamiques croisés. Ces outils lui permettent d’analyser les informations du crawl en classant les pages du site selon des critères qu’il estime pertinents :

code de réponse : pages en 200, pages en 301, en 404 ;
vitesse de chargement ;
unicité des contenus (vérification du duplicate) ;
type (page produit, page catégorie, landing page) ;
contenu (faible, trop de liens sortants externes).

Réparer les erreurs SEO techniques

Crawler un site web identifie les problèmes d’exploration rencontrés par les robots d’indexation. L’outil de crawl donne une indication sur le degré de priorité du problème. Temps de chargement trop long, erreurs 400, balises meta dupliquées font partie des erreurs à réparer. Le crawl permet de réparer les liens internes cassés et de traiter les pages à faible volume (soft 404). Les résultats du crawl facilitent la construction d’une arborescence courte et d’un fichier robots.txt bien pensé.

Scraper le contenu d’un site avant migration

Le scraping est une technique voisine du crawl. Elle permet l’extraction des données d’un site web et sert à préparer la migration ou la refonte de site. Scraper les contenus d’un site web suppose de configurer correctement l’outil. L’expert SEO spécifie les informations des pages qu’il souhaite extraire via REGEX ou XPATH. Pour migrer un site web vers un nouveau WordPress, il aura besoin par exemple du H1, du contenu, du title et de la méta description.

Contactez-nous pour une étude gratuite 🚀