Passer au contenu principal

Affiner les données extraites (remplacer du contenu, ajouter un préfixe, etc)

Apprenez à nettoyer les données dans le logiciel Octoparse.

Mis à jour cette semaine

Au cours de votre projet de web scraping, vous pouvez souhaiter nettoyer certains champs de données pendant l’extraction. Octoparse propose 10 options de nettoyage des données pour transformer les informations extraites dans le format dont vous avez besoin.


Quand faut-il affiner les données extraites ?

Si vous souhaitez appliquer un format précis à un champ donné, vous pouvez utiliser la fonction « Nettoyer les données » dans Octoparse pour affiner ce champ directement. Octoparse se chargera d’extraire et d’affiner les données pendant le processus de scraping.
Il n’est donc pas nécessaire de reformater le champ après avoir exporté les données dans un fichier Excel.


Comment affiner les données extraites dans Octoparse ?

Pour accéder à ces fonctionnalités dans Octoparse, suivez les 4 étapes ci-dessous :

  • Sélectionnez le champ de données à affiner

  • Cliquez sur l’icône « … » et choisissez Nettoyer les données

  • Cliquez sur Ajouter une étape

  • Sélectionnez une opération pour reformater les données

Astuce :

En programmation, une « chaîne de caractères » (string) désigne un ensemble de caractères tels que des lettres, des chiffres, des symboles et des signes de ponctuation. Par exemple, « " " » (espace) est une chaîne ; « Octoparse » est une chaîne ; et « Hello 2 *% World! » en est également une. Une chaîne peut aussi ne contenir aucun caractère. Autrement dit, une chaîne vide correspond à une chaîne sans caractère. Si vous remplacez un mot par une chaîne vide, cela revient, en langage courant, à dire que vous supprimez le mot.

Vous rencontrerez souvent le terme « chaîne de caractères » (string) dans les instructions des fonctions de nettoyage de données d’Octoparse. Cela signifie que vous pouvez appliquer les options correspondantes pour traiter différents types de contenu extrait : lettres, mots, phrases, nombres, espaces, symboles ou ponctuation.


10 options de reformatage des données

1. Remplacer

Fonction : Remplace la ou les chaînes de caractères spécifiques dans les données extraites par la ou les nouvelles chaînes que vous souhaitez.

2. Remplacer par une expression régulière

Fonction : Utilisez une expression régulière spécifique pour remplacer la ou les chaînes de caractères correspondantes dans les données extraites par la ou les chaînes que vous souhaitez.

Astuce :

Si vous ne savez pas comment écrire une expression, nous mettons à votre disposition des outils pratiques !

  • Les expressions les plus couramment utilisées sont disponibles pour que vous puissiez les sélectionner et les appliquer directement.

  • Outil RegEx IA pour générer vos propres expressions

3. Faire correspondre avec une expression régulière

Fonction : Utilisez une expression régulière spécifique pour extraire la ou les chaînes de caractères correspondantes des données extraites.

Vous pouvez en apprendre davantage sur les expressions régulières sur W3Schools.

4. Supprimer les espaces

Fonction : Supprimez les espaces indésirables au début et/ou à la fin des données extraites.

Si vous souhaitez supprimer les espaces à l’intérieur des données, vous pouvez utiliser Remplacer ou Remplacer avec une expression régulière.

5. Ajouter un préfixe

Fonction : Ajoutez une ou plusieurs chaînes de caractères au début des données extraites.

6. Ajouter un suffixe

Fonction : Ajoutez une chaîne de caractères à la fin des données extraites.

7. Reformater la date/l'heure extraite

Fonction :

  • Convertit la date/heure extraite dans l’un des formats prédéfinis ou dans un format personnalisé que vous définissez.

Par exemple, vous pouvez reformatter « 2025-01-01 » en « 2025/01/01 ».

  • Convertit également une date/heure relative en une date/heure précise.

Par exemple, « il y a 2 jours » peut être converti en 2025/01/01. Cela est utile lorsque vous scrapez la date de publication d’offres d’emploi, d’articles ou de vidéos

8. Conversion de l'horodatage

Fonction : Convertit un horodatage Unix dans un format personnalisé que vous définissez.

Un horodatage Unix est une suite de chiffres représentant une date et une heure précises. Cette fonction permet de transformer l’horodatage Unix en un format facilement lisible.

8.png

9. Conversion de fuseau horaire

Fonction : Convertit la date et l’heure dans le fuseau horaire de votre choix.

Sur certains sites web, la date et l’heure affichées sont basées sur le pays d’origine du site. Si vous souhaitez adapter le fuseau horaire à votre pays, vous pouvez utiliser cette fonctionnalité pour le faire facilement.

10. Transcodage HTML

Fonction : Convertit automatiquement certaines balises HTML en texte brut.
Par exemple, « &» sera converti en « & ».

Astuce : Toutes les étapes ajoutées peuvent être modifiées ou supprimées ici en cliquant sur les icônes modifier et supprimer.


Outil Regex d'Octoparse

Octoparse propose également un Générateur RegEx IA et un Générateur RegEx pour créer automatiquement les expressions régulières dont vous avez besoin.

Cliquez ici pour en savoir plus sur l’utilisation de l’outil RegEx.

Avez-vous trouvé la réponse à votre question ?