Outil d'expression régulière
Mis à jour il y a plus d’une semaine

L'expression régulière (RegEx) est une chaîne de texte spéciale qui peut définir un modèle de recherche, utilisé par les algorithmes de recherche de chaînes pour les opérations de "recherche" ou de "recherche et remplacement" sur les chaînes. Vous pouvez consulter les bases de l'expression régulière ici.

Dans Octoparse, vous pouvez utiliser RegEx pour faire correspondre/remplacer des caractères dans une valeur de champ afin d'affiner directement les données extraites.

Outil RegEx d'Octoparse est un outil intégré qui offre un moyen pratique de générer automatiquement des expressions régulières en définissant divers critères. Lorsque l'on sait peu de choses sur la façon de créer une syntaxe d'expression régulière, l'outil RegEx est particulièrement utile.


Où trouver l'outil RegEx ?

1. Dans les options Nettoyer les données

  • Sélectionnez le champ de données que vous souhaitez personnaliser

  • Cliquez sur "..." et choisissez "Nettoyer les données".

  • Cliquez sur "Ajouter une étape"

  • Choisissez "Remplacer par une expression régulière"/"Faire correspondre avec une expression régulière"

Cliquez sur "Vous n'êtes pas sûr de savoir ce qu'est RegEx ? Essayez l'outil RegEx !"

2. À partir de la barre de navigation latérale

  • Sélectionnez l'icône "Boîte à outils" en bas de la barre de navigation latérale.

  • Cliquez sur "Outil RegEx".


L'interface de l'outil RegEx

L'interface principale de l'outil RegEx se compose de 4 parties :

3.png

1. Texte original

Si vous ouvrez l'outil RegEx dans les options de nettoyage des données, la chaîne de texte extraite s'affiche ici.

Si vous l'ouvrez à partir de la barre de navigation latérale, la chaîne de caractères doit être saisie directement dans le texte original en tapant ou en collant vous-même.

2. Générer/ Référence/ Échantillon

Cette partie comporte trois onglets.

  • Dans l'onglet Générer, il y a des cases à cocher pour différentes options. Vous pouvez cocher ces cases et remplir certains paramètres pour qu'Octoparse génère automatiquement l'expression régulière dont vous avez besoin.

Cette section vous permet de définir des conditions pour filtrer la partie des données que vous souhaitez trier.

Vous pouvez consulter les détails dans la section suivante (Comment utiliser l'outil d'expression régulière d'Octoparse ?).

  • Les sections Référence et Exemple sont actuellement vides car nous n'avons pas préparé les tutoriels de référence.

3. Expression régulière

L'expression régulière sera générée automatiquement dans la case "Expression régulière" après que vous aurez coché les cases d'option et rempli les paramètres dans l'onglet "Générer".

Cochez "Tout faire correspondre" si vous souhaitez obtenir toutes les correspondances. Cliquez ensuite sur le bouton "Correspondance" pour vérifier si l'expression trouve ce que vous voulez.

4. Correspondances

Une fois que vous avez généré une expression, la première correspondance s'affiche dans le champ Correspondances.

Si vous avez coché la case "Tout faire correspondre", toutes les correspondances seront affichées dans l'ordre dans la boîte.


Comment utiliser Octoparse Regular Expression Tool ?

Il suffit de cliquer sur 3 boutons un par un dans l'ordre (Generate-Match-Apply) et nous pourrons facilement obtenir le résultat dont nous avons besoin.

4.png

ETAPE 1 : Vérifiez les options et remplissez les paramètres nécessaires(1) puis générez(2) une expression régulière(3)

  • "Début/Fin avec" : Récupère le contenu qui commence ou se termine par, mais exclut le(s) caractère(s) que vous avez saisi(s) dans la case.

  • "Inclure le début/la fin" : Cette option ne peut être utilisée que si l'option "Commencer/terminer par" est cochée. Si vous cochez "Inclure le début/la fin", le résultat de la recherche inclura la chaîne de texte que vous avez saisie.

  • "Contenir un" : Reprend le contenu qui contient le(s) caractère(s) que vous avez saisi(s).

ÉTAPE 2 : Cliquez sur le bouton Correspondance(4) - cochez la case Correspondre à tous si vous souhaitez obtenir toutes les correspondances.

ETAPE 3 : Appliquez(5) l'Expression Régulière pour obtenir le résultat suivant

Avez-vous trouvé la réponse à votre question ?