Passer au contenu principal

Accélérez le processus de scraping en utilisant une liste d'URLs

Mis à jour il y a plus de 6 mois

Avec le mode de boucle Liste d’URLs, Octoparse n’a pas besoin de gérer certaines étapes comme Cliquer pour paginer ou Cliquer sur un élément pour accéder à une page de détails.

En conséquence, la vitesse d’extraction sera plus rapide, en particulier pour l’Extraction Cloud. Lorsqu’une tâche construite avec une Liste d’URLs est exécutée dans le Cloud, elle est divisée en sous-tâches, qui sont ensuite exécutées simultanément sur plusieurs processus cloud.


1. Accélérer l’extraction en utilisant des URLs paginées

Une URL paginée est un type d’URL qui inclut un paramètre (tel que page=1) pour indiquer le numéro de page spécifique consulté dans une séquence. Ces URLs sont couramment utilisées sur les sites affichant des résultats de recherche ou du contenu réparti sur plusieurs pages, permettant aux utilisateurs de naviguer efficacement dans un grand volume d’informations.

Si votre tâche d’extraction doit collecter des données sur des milliers de pages, vous pouvez entrer directement une liste d’URLs paginées dans la tâche au lieu de cliquer sur le bouton Suivant pour chaque page. Cette méthode accélère considérablement le processus, garantissant une exécution plus rapide de la tâche.

Prenons l'exemple des URL ci-dessous :

Ce site web contient un total de 1 011 pages. En observant les URLs de chaque page, vous remarquerez qu'elles suivent la même structure. Dans ce cas, vous pouvez utiliser la fonctionnalité Génération en lot pour générer automatiquement les URLs de chaque page.

Voici les étapes à suivre :

  • Cliquez sur Nouveau+ dans le menu latéral et sélectionnez Tâche personnalisée

Remarque : Si vous avez déjà configuré une tâche, cliquez sur le bouton Modifier les URL dans le coin supérieur droit pour générer les URL en lot.

  • Sélectionnez Générer par lot

  • Collez l'une des URLs paginées pour la génération en lot

  • Mettez en surbrillance le numéro de la page ("1" dans ce cas) et cliquez sur Ajouter un paramètre

  • Entrez le nombre total de pages ("1 011" dans ce cas) dans la boîte Répéter ou Valeur final

  • Cliquez sur Sauvegarder

Une fois les URL paginées générées, la tâche peut naviguer directement vers chaque page. Par conséquent, vous pouvez supprimer l'étape de pagination.

💡Astuce : Il existe trois façons d'importer en lot des URL dans une tâche/extracteur unique (jusqu'à un million d'URL) :

  • Importer des URL en lot à partir de fichiers locaux

  • Importer des URL en lot à partir d'une autre tâche

  • Saisir manuellement

Veuillez consulter ce tutoriel Saisir URL par lot pour plus de détails.


2. Accélérer l'extraction en utilisant les URL des pages de détails

Lorsque vous devez cliquer sur les éléments d'une liste pour extraire les données de leurs pages de détails, cela peut prendre du temps de les ouvrir un par un. Dans ce cas, il est plus efficace d’extraire d’abord les URL de tous les éléments listés.

Une fois que vous avez récupéré toutes les URL des pages de détails, vous pouvez démarrer une nouvelle tâche en entrant toutes les URL extraites à partir de la tâche précédente.

Avez-vous trouvé la réponse à votre question ?