Au cours de votre projet de web scraping, vous pouvez souhaiter nettoyer certains champs de données pendant l’extraction. Octoparse propose 10 options de nettoyage des données pour transformer les informations extraites dans le format dont vous avez besoin.
Quand faut-il affiner les données extraites ?
Si vous souhaitez appliquer un format précis à un champ donné, vous pouvez utiliser la fonction « Nettoyer les données » dans Octoparse pour affiner ce champ directement. Octoparse se chargera d’extraire et d’affiner les données pendant le processus de scraping.
Il n’est donc pas nécessaire de reformater le champ après avoir exporté les données dans un fichier Excel.
Comment affiner les données extraites dans Octoparse ?
Pour accéder à ces fonctionnalités dans Octoparse, suivez les 4 étapes ci-dessous :
Sélectionnez le champ de données à affiner
Cliquez sur l’icône « … » et choisissez Nettoyer les données
Cliquez sur Ajouter une étape
Sélectionnez une opération pour reformater les données
Astuce :
En programmation, une « chaîne de caractères » (string) désigne un ensemble de caractères tels que des lettres, des chiffres, des symboles et des signes de ponctuation. Par exemple, « " " » (espace) est une chaîne ; « Octoparse » est une chaîne ; et « Hello 2 *% World! » en est également une. Une chaîne peut aussi ne contenir aucun caractère. Autrement dit, une chaîne vide correspond à une chaîne sans caractère. Si vous remplacez un mot par une chaîne vide, cela revient, en langage courant, à dire que vous supprimez le mot.
Vous rencontrerez souvent le terme « chaîne de caractères » (string) dans les instructions des fonctions de nettoyage de données d’Octoparse. Cela signifie que vous pouvez appliquer les options correspondantes pour traiter différents types de contenu extrait : lettres, mots, phrases, nombres, espaces, symboles ou ponctuation.
10 options de reformatage des données
1. Remplacer
Fonction : Remplace la ou les chaînes de caractères spécifiques dans les données extraites par la ou les nouvelles chaînes que vous souhaitez.
2. Remplacer par une expression régulière
Fonction : Utilisez une expression régulière spécifique pour remplacer la ou les chaînes de caractères correspondantes dans les données extraites par la ou les chaînes que vous souhaitez.
Astuce :
Si vous ne savez pas comment écrire une expression, nous mettons à votre disposition des outils pratiques !
3. Faire correspondre avec une expression régulière
Fonction : Utilisez une expression régulière spécifique pour extraire la ou les chaînes de caractères correspondantes des données extraites.
Vous pouvez en apprendre davantage sur les expressions régulières sur W3Schools.
4. Supprimer les espaces
Fonction : Supprimez les espaces indésirables au début et/ou à la fin des données extraites.
Si vous souhaitez supprimer les espaces à l’intérieur des données, vous pouvez utiliser Remplacer ou Remplacer avec une expression régulière.
5. Ajouter un préfixe
Fonction : Ajoutez une ou plusieurs chaînes de caractères au début des données extraites.
6. Ajouter un suffixe
Fonction : Ajoutez une chaîne de caractères à la fin des données extraites.
7. Reformater la date/l'heure extraite
Fonction :
Convertit la date/heure extraite dans l’un des formats prédéfinis ou dans un format personnalisé que vous définissez.
Par exemple, vous pouvez reformatter « 2025-01-01 » en « 2025/01/01 ».
Convertit également une date/heure relative en une date/heure précise.
Par exemple, « il y a 2 jours » peut être converti en 2025/01/01. Cela est utile lorsque vous scrapez la date de publication d’offres d’emploi, d’articles ou de vidéos
8. Conversion de l'horodatage
Fonction : Convertit un horodatage Unix dans un format personnalisé que vous définissez.
Un horodatage Unix est une suite de chiffres représentant une date et une heure précises. Cette fonction permet de transformer l’horodatage Unix en un format facilement lisible.
9. Conversion de fuseau horaire
Fonction : Convertit la date et l’heure dans le fuseau horaire de votre choix.
Sur certains sites web, la date et l’heure affichées sont basées sur le pays d’origine du site. Si vous souhaitez adapter le fuseau horaire à votre pays, vous pouvez utiliser cette fonctionnalité pour le faire facilement.
10. Transcodage HTML
Fonction : Convertit automatiquement certaines balises HTML en texte brut.
Par exemple, « &» sera converti en « & ».
Astuce : Toutes les étapes ajoutées peuvent être modifiées ou supprimées ici en cliquant sur les icônes modifier et supprimer.
Outil Regex d'Octoparse
Octoparse propose également un Générateur RegEx IA et un Générateur RegEx pour créer automatiquement les expressions régulières dont vous avez besoin.
Cliquez ici pour en savoir plus sur l’utilisation de l’outil RegEx.