Une expression régulière (RegEx) est une chaîne de texte spéciale qui permet de définir un motif de recherche, utilisé par les algorithmes de recherche de chaînes pour effectuer des opérations de type « rechercher » ou « rechercher et remplacer » sur des chaînes de caractères. Vous pouvez acquérir ici quelques notions de base sur les expressions régulières.
Dans Octoparse, vous pouvez utiliser les RegEx pour faire correspondre ou remplacer des caractères dans une valeur de champ afin d’affiner directement les données extraites.
L’outil RegEx d’Octoparse est un outil intégré qui offre un moyen pratique de générer automatiquement des expressions régulières en définissant divers critères. Si vous connaissez peu la syntaxe des expressions régulières, cet outil RegEx peut s’avérer particulièrement utile.
Comment accéder à l’outil RegEx
Dans Octoparse, il existe deux façons d’accéder à l’outil RegEx d’Octoparse :
1. Via le menu « Nettoyer les données »
Sélectionnez le champ de données que vous souhaitez personnaliser.
Cliquez sur le bouton « … » et choisissez Nettoyer les données.
Cliquez sur Ajouter une étape et sélectionnez l’option RegEx.
2. Via la barre latérale
Comprendre l’interface de l’outil RegEx
Version 8.8.0 et ultérieures
1. Motifs RegEx
Il s’agit d’une bibliothèque d’expressions régulières préconstruites et couramment utilisées. Vous pouvez parcourir ou rechercher un motif qui correspond à vos besoins (par exemple, pour trouver des emails, numéros de téléphone, URL ou formats de date spécifiques). C’est le moyen le plus rapide d’appliquer une RegEx puissante sans avoir à la créer vous-même.
2. Générateur RegEx IA
Marre d’écrire des expressions régulières complexes ? Utilisez notre Générateur RegEx IA pour les créer instantanément, simplement en montrant à l’outil ce que vous souhaitez extraire.
Comment ça fonctionne :
Trouvez le champ de données que vous souhaitez nettoyer, cliquez sur Plus >> Nettoyer les données pour ce champ.
Ajoutez une étape Faire correspondance avec une expression régulière à votre flux de travail pour le champ de données ciblé.
Cliquez sur Essayez l'aide IA ou l'outil regex
Pour chaque chaîne de test, surlignez manuellement uniquement le texte que vous souhaitez faire correspondre (par exemple, NY dans Suffolk County, NY).
Cliquez sur Générer. L’IA analysera vos exemples et proposera un motif RegEx.
Cliquez sur Tester pour vérifier que le motif fonctionne sur tous vos exemples.
Cliquez sur Appliquer & Enregistrer, donnez un nom à votre motif et confirmez.
Exemple d’entrée et de sortie :
Chaîne d’entrée : Suffolk County, NY
Vous surlignez : NY
RegEx générée : Créera un motif qui correspond au code de l’état (par exemple, NY, NC).
3. Générateur RegEx
Il s’agit de l’évolution de l’onglet classique « Générer ». Il offre une interface conviviale, basée sur un formulaire, permettant de créer votre propre expression régulière personnalisée en sélectionnant des options et en remplissant des paramètres (par exemple, « Commence par », « Se termine par », « Contient »). Il traduit automatiquement vos choix en syntaxe RegEx correcte, ce qui le rend parfait pour les débutants ou pour ceux qui préfèrent une approche visuelle.
Comment utiliser le Générateur RegEx d’Octoparse ?
ÉTAPE 1 :
Cochez les options et remplissez les paramètres nécessaires, puis cliquez sur Générer pour obtenir une expression régulière.
Commence/Finit par : Sélectionnez le contenu qui commence ou se termine par certains caractères, mais exclut les caractères que vous saisissez dans la case.
Contient le début/la fin : Cette option ne peut être utilisée que si Commence/Finit par est cochée. Une fois cochée, le résultat inclura la chaîne de texte que vous avez saisie.
Contient un élément : Sélectionnez le contenu qui contient le ou les caractères que vous avez renseignés.
ÉTAPE 2 :
Cliquez sur le bouton Tester – examiner les résultats générés
ÉTAPE 3 :
Une fois que vous êtes satisfait des correspondances prévisualisées, cliquez sur le bouton Appliquer ou Appliquer et enregistrer
Avant la version 8.8.0
L’interface principale de l’outil RegEx se compose de 4 parties :
1. Texte original
Si vous ouvrez l'outil RegEx dans les options de nettoyage des données, la chaîne de texte extraite s'affiche ici.
Si vous l'ouvrez à partir de la barre de navigation latérale, la chaîne de caractères doit être saisie directement dans le texte original en tapant ou en collant vous-même.
2. Onglets de configuration (Générer/Références/Échantillon)
Générer : C’est l’onglet principal pour créer des expressions. Vous pouvez cocher différentes options et remplir des paramètres afin de laisser Octoparse construire automatiquement un motif RegEx pour vous.
Référence & Échantillon : Ces onglets sont réservés à de futurs tutoriels et guides.
3. Expression régulière
Cette zone affiche le code RegEx généré automatiquement en fonction de vos sélections dans l’onglet Générer.
Cochez la case Tout assortir pour trouver toutes les occurrences qui correspondent au motif, puis cliquez sur le bouton Adapter pour tester l’expression.
4. Résultats
Cette zone montre les résultats de l’opération RegEx. La première correspondance est affichée par défaut ; si la case Tout assortir est cochée, toutes les correspondances seront listées dans l’ordre.