L'élément de boucle
Mis à jour il y a plus d’une semaine

Quand vous construisez une tâche de scraping dans Octoparse, vous allez presque certainement utiliser l'élément de boucle pendant le processus. Une boucle est le plus souvent utilisée pour récupérer une liste d'éléments ou pour paginer à travers les différentes pages d'un site web.

Dans cet article, je vais vous expliquer exactement comment fonctionne l'élément de boucle dans Octoparse.


1. Qu'est-ce que la boucle ?

Une boucle est une fonction de programmation qui répète une instruction de manière continue jusqu'à ce qu'une certaine condition soit atteinte. L'élément de boucle dans Octoparse est similaire à une boucle. D'une manière générale, on utilise l'élément en boucle quand il y a plus d'une URL/élément. Et puis, une ou plusieurs actions sont ajoutées à l'élément en boucle. Une fois qu'une boucle est créée, Octoparse répète les actions en boucle pour un nombre déterminé de fois ou jusqu'à ce qu'il n'y ait plus moyen de répéter les actions, par exemple, lorsqu'il n'y a plus de page suivante à basculer (lorsque vous avez atteint la dernière page).

Prenons un exemple. Nous avons une liste d'URLs dont nous voulons extraire des données. Tout d'abord, nous allons créer une boucle en utilisant la liste d'URL, puis on ajoute dans la boucle une action de Aller à la page Web et une autre action Extraire des données. Le flux de travail ressemblerait à ceci :

Ce flux de travail indique à Octoparse de prendre la première URL de la liste, et " Aller à la page Web ", puis extraire les données. La même action sera répétée pour toutes les URLs de la liste jusqu'à ce que la dernière URL soit choisie, puis la boucle s'arrête.


2. Paramètres de l'élément de boucle

Si vous cliquez sur la boucle et puis Général, vous accéderez au panneau des paramètres.

  • Nom de l'action : Vous pouvez modifier le nom de l'élément de boucle spécifique. Un nom unique pour un élément de boucle peut vous aider à localiser rapidement ce que vous voulez si vous avez plusieurs boucles dans votre flux de travail.

  • Mode boucle : Pour qu'un élément de boucle fonctionne correctement, il est essentiel que vous ayez sélectionné le bon mode de boucle. Il existe 6 modes de boucle, chacun d'entre eux est expliqué en détail dans la section ci-dessous.

  • Quitter la boucle : Vous pouvez aussi mettre fin prématurément en désignant le nombre de fois que les actions en boucle doivent être répétées.

  • Attente avant action : Vous pouvez utiliser cette fonction pour configurer un temps d'attente avant chaque répétition.

3. Les 6 modes de boucle et comment les utiliser ?

  • Élément unique est utilisé pour localiser un élément spécifique sur la page. Octoparse exécutera les actions en boucle sur le même élément, jusqu'à ce que l'élément ne soit plus trouvé sur la page. Ce genre de boucle est souvent utilisé lorsque vous souhaitez qu'Octoparse clique sur le bouton "Page suivante" à plusieurs reprises jusqu'à ce que vous ayez atteint la dernière page (plus de "Page suivante").

  • Liste variable est utilisée pour localiser une liste d'éléments qui correspondent à une seule requête XPath. Octoparse effectuera les actions en boucle pour faire correspondre les éléments un par un jusqu'à ce que le dernier élément soit atteint. Une liste variable doit être utilisée lorsque le nombre d'éléments se varie sur les pages différentes.

  • Liste fixe, similaire à la liste variable, est également utilisé pour localiser une liste d'éléments, mais elle est utilisée lorsque le nombre d'éléments de la page est uniforme sur toutes les pages.

  • Liste d'URLs est utilisé pour faire boucler une liste d'URLs, dans ce cas Octoparse ouvrirait les URLs une par une. Il y a trois façons de saisir les URLs et veuillez les consulter par ici.

  • Liste de texte est une liste de lignes de texte. Lorsqu'une liste de texte est utilisée, Octoparse saisit un par un les caractères dans la page.

  • Page de défilement est un nouveau mode de défilement. Ce mode est particulièrement adapté aux sites Web qui utilisent le défilement infini pour afficher davantage de contenu. Cette option permet de récupérer les données pendant le défilement au lieu de les récupérer à la fin du défilement.

CONSEILS :

Lorsque la liste fixe, la liste d'URL et la liste de texte sont utilisées, la tâche peut être divisée en sous-tâches qui peuvent être exécutées simultanément dans le Cloud pour une collection de données plus rapide .

La liste variable peut être remplacée par la liste fixe pour des extractions plus rapides.


4. Comment créer une boucle ?

Le type d'élément de boucle dépend des données que vous essayez d'extraire et de la structure spécifique de la page Web. Consultez les tutoriels ci-dessous pour savoir comment créer un élément de boucle pour différents cas d'utilisation.


5. Dépannage de l'élément de boucle

Il existe de nombreux problèmes liés à la boucle, tels que des éléments manquants, des pages qui sautent, etc. Les questions les plus fréquemment posées sont énumérées ci-dessous :

5.1 Pagination :

5.2 Données manquants

5.3 Autres :

Avez-vous trouvé la réponse à votre question ?