Saisie d'URL par lot

Dans ce tutoriel, nous allons vous montrer comment saisir des URLS par lot et comment les exporter.

Mis à jour il y a plus d’une semaine

Qu'est-ce que la saisie d'URL par lot ?

Cette fonction permet d'importer un grand nombre d'URLs dans Octoparse. Octoparse supporte l'importation d'URLs par lot à partir de fichiers locaux (texte ou feuille de calcul), d'une autre tâche, ou les utilisateurs peuvent faire générer les URLs sur la base d'un modèle prédéfini.


Comment saisir des URL par lot ?

Cliquez sur +Nouveau dans le menu latéral et sélectionnez Mode personnalisé pour afficher le panneau d'importation d'URL.

Il y a trois façons d'importer des URLs par lot pour n'importe quelle tâche/crawler (jusqu'à un million d'URLs) :

CONSEIL :

Lorsque le nombre d'URL importées/générées atteint la limite de 1 million, Octoparse arrête immédiatement l'importation/génération.


1. Importer des URLs à partir d'un fichier

Vous pouvez importer des URL à partir de l'un de ces formats de fichier : CSV/ TXT/ Excel (.xlsx & .xls)

  • Sélectionnez "Importer à partir d'un fichier".

  • Cliquez sur "Naviguer" puis choisissez le fichier contenant les URLs et sélectionnez ensuite la feuille et la colonne qui contient les URLs.

  • Cliquez sur "Enregistrer" pour terminer le processus d'importation.

A remarquer :

Seules les 100 premières URL seront affichées dans le panneau de configuration.

S'il s'agit de l'importation à partir d'un fichier CSV, veuillez vous assurer que le fichier ne comporte qu'une seule colonne avec les URL. Si le fichier comporte plusieurs colonnes, les URLs ne seront pas importées et seront reconnues comme des URLs invalides.



2. Importer des URL d'une autre tâche

Cette fonctionnalité permet d'intégrer deux tâches de manière transparente lorsque l'extraction d'URL doit être effectuée séparément avec une autre tâche. L'exportation et l'importation manuelles d'URL ne sont plus nécessaires.

  • Sélectionnez "Importer à partir d'une tâche".

  • Sélectionnez la tâche contenant les URLs, puis spécifiez le champ de données approprié.

  • Cliquez sur "Sauvegarder" pour terminer le processus d'importation.

__2.gif

Notez que la tâche sélectionnée (celle qui contient les URLs nécessaires pour plus de crawling) est appelée la tâche parent, et la nouvelle tâche à configurer avec les URLs devient la tâche enfant. Les deux tâches seront associées automatiquement et pourront être exécutées en association l'une avec l'autre.

A noter :

1. Vous pouvez configurer l'exécution de la tâche enfant en fonction du statut de la tâche parent dans le Cloud. Si vous configurez une exécution associée en sélectionnant une option dans les paramètres de la tâche parent, les deux tâches seront exécutées dans le Cloud via Octoparse Cloud Service.

L'exécution associée n'est pas disponible pour l'extraction locale.

2.png

2. Lorsqu'une exécution associée est configurée, la programmation des tâches n'est pas possible pour l'exécution de la tâche enfant.

3. L'importation à partir d'une autre tâche prend en charge l'importation de plus d'un million d'URL.


3. Générer d'URLs par lot sur la base d'une règle prédéfinie

Avec la fonction "Générer par lots", vous pouvez facilement générer un grand nombre d'URLs en suivant des modèles spécifiques : modifier divers paramètres d'une URL donnée.

  • Sélectionnez "Générer par lot".

  • Saisissez une URL comme base pour la génération par lots.

  • Mettez en surbrillance le paramètre URL sélectionné et cliquez sur " Ajouter un paramètre ".

  • Choisissez parmi les quatre options de type de paramètre pour définir le modèle dont vous avez besoin et cliquez sur "Enregistrer l'URL" pour sauvegarder la liste.

Quatre options pour le type de paramètre

1. Numéro

Vous pouvez saisir le nombre initial, choisir d'augmenter (+) ou de diminuer (-) un nombre à chaque fois, et saisir une répétition ou une valeur finale.

Par exemple, si vous voulez générer des URL pour des pages différentes, vous pouvez avoir besoin de configurer le paramètre du numéro de page de 1 à 100. Vous devez entrer le numéro initial comme 1, chaque fois + 1, et répéter 100 fois. La valeur finale sera automatiquement remplie comme 100.

2. Lettres

Vous pouvez saisir la lettre de départ et la lettre d'arrivée.

3. Temps

4. Liste personnalisée

Vous pouvez saisir votre propre liste, comme une liste de mots-clés de recherche ou de références de produits.

Avez-vous trouvé la réponse à votre question ?