Octoparse propose des processus Cloud pour exécuter des tâches 24h/24 et 7j/7, avec une vitesse pouvant être jusqu'à 4 à 20 fois plus rapide que l'extraction locale. L'extraction rapide est l'un des points forts de l'extraction Cloud d'Octoparse. Cependant, il peut arriver que la vitesse du Cloud ne soit pas aussi satisfaisante que prévu. Dans ce tutoriel, nous expliquerons la logique d'accélération des tâches dans le Cloud et comment modifier une tâche pour l'exécuter plus rapidement.
La logique d'accélération des tâches dans le Cloud
Octoparse Cloud accélère le processus en divisant une tâche en plusieurs sous-tâches et en les exécutant simultanément avec plusieurs processus Cloud. Chaque sous-tâche nécessite un processus Cloud pour s'exécuter, donc la vitesse dépend du nombre de processus Cloud disponibles sur votre compte et de la possibilité de diviser la tâche.
Le plan Standard permet d'utiliser jusqu'à 6 processus Cloud, tandis que le plan Professionnel en offre jusqu'à 20. Vous pouvez facilement passer à un plan supérieur pour augmenter la vitesse d'extraction. Cependant, si vous ne souhaitez pas modifier votre abonnement, il est essentiel d'adapter la tâche pour qu'elle puisse être divisée.
Remarque : Si votre tâche est divisible, l'option Mode Boost sera disponible. Dans le cas contraire, elle sera désactivée.
Exécuter une tâche en Mode Boost signifie qu'elle sera divisée lors de l'exécution. En revanche, si vous choisissez le Mode Standard, Octoparse n'effectuera pas cette division.
Quels types de tâches sont divisibles ?
Lorsque vous créez une boucle dans Octoparse, celui-ci attribue automatiquement un mode de boucle en fonction des éléments sélectionnés.
Trois types de modes de boucle divisibles dans Octoparse :
1. Liste d'URL
Une boucle d’URL est utilisée lorsque vous lancez une extraction à partir de plusieurs URLs. Cela est particulièrement utile lorsque les données à extraire se trouvent sur plusieurs pages partageant la même structure. Vous pouvez facilement configurer une boucle pour parcourir ces pages et appliquer les mêmes actions d’extraction à chacune.
Une boucle d’URL est divisible, ce qui signifie que lorsqu'une tâche utilisant une liste d’URLs est exécutée dans le Cloud, Octoparse la divise en plusieurs sous-tâches pour une extraction plus rapide et plus efficace.
Pour en savoir plus sur la liste d’URLs, consultez la documentation sur l’importation d’URLs en lot.
2. Liste de texte
Une boucle de liste de textes fonctionne de manière similaire à une boucle de liste d’URL. Cependant, au lieu de parcourir une liste d’URL, elle permet de parcourir une liste de valeurs textuelles prédéfinies.
Pour en savoir plus sur la boucle de liste de textes, consultez la documentation sur Saisir du texte.
3. Liste fixe
De nombreuses pages web, comme les sites e-commerce, organisent souvent leur contenu (c'est-à-dire les informations sur les produits) sous forme d’une collection d’éléments récurrents partageant le même modèle HTML.
Lors du scraping de ces éléments, comme les titres de produits, Octoparse détecte intelligemment tous les éléments partageant le même modèle HTML et génère une collection de XPath pour localiser tous les éléments du même type.
En plus de ces trois types de modes de boucle divisibles, il existe deux autres modes de boucle qui ne le sont pas : la boucle à élément unique et la boucle à liste variable. Comme ces deux modes de boucle n’impliquent qu’un seul XPath, ils ne peuvent pas être divisés en sous-tâches pour accélérer l’extraction.
Comment rendre ma tâche divisible ?
1. Pour une tâche avec une Liste Variable qui clique sur une liste d'éléments
Modifiez-la en une Liste Fixe en listant les XPaths de chaque élément sur la page.
Commencez par extraire uniquement les URLs des éléments sans cliquer sur les pages, puis créez une autre tâche avec ces URLs pour récupérer les données détaillées.
2. Pour les tâches qui extraient des données de plusieurs pages
Utilisez les URLs de chaque page pour construire le workflow et accélérer l'extraction en utilisant une Liste d'URLs.
Comment savoir en combien de sous-tâches ma tâche est divisée ?
Après avoir exécuté la tâche dans le Cloud, vous pouvez vérifier le nombre de sous-tâches dans le journal des événements de la fenêtre d’exécution Cloud.