Passer au contenu principal

Saisie d'URL par lot

Mis à jour il y a plus de 4 mois

Qu'est-ce que la saisie d'URL par lot ?

La fonctionnalité de saisie d'URL en lot permet d'importer un grand nombre d'URL dans Octoparse. Octoparse prend en charge l'importation d'URL en lot à partir de fichiers locaux (texte ou tableur), à partir d'une autre tâche, ou même la génération d'URL sur la base d’un modèle prédéfini.


Comment saisir des URL par lot ?

Cliquez sur +Nouveau dans le menu latéral et sélectionnez Tâche personnalisée pour afficher le panneau d'importation d'URL.

Il existe trois méthodes pour importer en masse des URL dans une tâche unique :

Remarque :

Une fois que le nombre d’URL importées/générées atteint la limite d’un million, Octoparse arrêtera immédiatement l’importation/la génération.


1. Importer des URLs à partir d'un fichier

Vous pouvez importer des URL à partir de l'un de ces formats de fichier : CSV / TXT / Excel (.xlsx & .xls)

  • Sélectionnez Importer à partir d'un fichier.

  • Cliquez sur Naviguer puis choisissez le fichier contenant les URLs et sélectionnez ensuite la feuille et la colonne qui contient les URLs.

  • Cliquez sur Sauvegarder pour terminer le processus d'importation.

Remarque :

1. Seules les 100 premières URL seront affichées dans le panneau de configuration.

2. S'il s'agit de l'importation à partir d'un fichier CSV, veuillez vous assurer que le fichier ne comporte qu'une seule colonne avec les URL. Si le fichier comporte plusieurs colonnes, les URLs ne seront pas importées et seront reconnues comme des URLs invalides.


2. Importer des URL d'une autre tâche

Cette fonctionnalité permet d'intégrer deux tâches de manière transparente lorsque l'extraction d'URL doit être effectuée séparément avec une autre tâche. L'exportation et l'importation manuelles d'URL ne sont plus nécessaires.

  • Sélectionnez Importer à partir d'une tâche.

  • Choisissez le Groupe de tâches et la tâche contenant les URL ciblées

  • Spécifiez le champ

  • Cliquez sur Sauvegarder pour terminer le processus d’importation

Remarque :

  • La tâche sélectionnée (celle qui contient les URL nécessaires pour un crawl supplémentaire) est appelée tâche parente, et la nouvelle tâche à configurer avec ces URL devient la tâche enfant. Les deux tâches seront automatiquement associées et peuvent être exécutées conjointement.

  • Les tâches enfants peuvent uniquement utiliser des URL extraites lors des exécutions dans le Cloud.

  • Lorsque la tâche parente obtient de nouvelles URL, les URL de la tâche enfant seront également mises à jour.

  • Vous pouvez programmer la tâche enfant dans le Cloud en fonction du statut de la tâche parente.

  • L'importation depuis une autre tâche permet d'importer plus d'un million d'URL.


3. Génération par lot d’URL selon un modèle prédéfini

Avec la fonction « Génération par lot », vous pouvez facilement générer un grand nombre d’URL en suivant des modèles spécifiques en modifiant différents paramètres d’une URL donnée.

  • Sélectionnez Génération par lot

  • Saisissez une URL comme base pour la génération par lot

  • Mettez en surbrillance le paramètre URL sélectionné et cliquez sur Ajouter un paramètre

  • Choisissez parmi les quatre types de paramètres pour définir le modèle souhaité, puis cliquez sur Sauvegarder

Quatre options pour le type de paramètre

1. Numéro

Vous pouvez saisir le nombre initial, choisir d'augmenter (+) ou de diminuer (-) un nombre à chaque fois, et saisir une répétition ou une valeur finale.

Par exemple, si vous voulez générer des URL pour des pages différentes, vous pouvez avoir besoin de configurer le paramètre du numéro de page de 1 à 100. Vous devez entrer le numéro initial comme 1, chaque fois + 1, et répéter 100 fois. La valeur finale sera automatiquement remplie comme 100.

2. Lettres

Vous pouvez saisir la lettre de départ et la lettre d'arrivée.

3. Temps

4. Liste personnalisée

Vous pouvez saisir votre propre liste, comme une liste de mots-clés de recherche ou de références de produits.

Remarque : Vous pouvez configurer plusieurs paramètres pour générer des URL. Par exemple, si l’URL de base est www.octoparse.com/[paramètre1]/[paramètre2]

Paramètre1 = {A, B}, Paramètre2 = {1, 2}

La liste finale des URL sera la suivante :

Avez-vous trouvé la réponse à votre question ?