Octoparse prend en charge le téléchargement d’images et de fichiers documents vers des dossiers locaux lors d’un processus de scraping en local. Les formats actuellement pris en charge sont : jpg, png, gif, doc, pdf, ppt, txt, xls et zip.
Dans ce tutoriel, nous allons vous montrer comment télécharger des fichiers et des images avec Octoparse.
Note:
Le téléchargement de fichiers n’est actuellement possible que lors des extractions locales. Le mode cloud ne permet pas de télécharger des fichiers.
Octoparse ne peut télécharger un fichier qu’à partir de son URL de téléchargement. Si l’URL ne peut pas être extraite, le fichier ne pourra pas être téléchargé.
Octoparse ne peut pas déclencher un téléchargement en cliquant sur un bouton de téléchargement.
1. Télécharger des fichiers
Exemple d’URL pour les réglages de téléchargement de fichier :
Cliquez sur l’un des fichiers — Choisissez le document que vous souhaitez télécharger ; l’élément sélectionné deviendra vert.
Cliquez sur l’URL du document (avec l’icône de téléchargement) — pour extraire les liens et télécharger les fichiers dans des dossiers locaux.
Vous verrez deux champs créés dans l’aperçu des données :
l’un affiche l’URL de téléchargement, et l’autre indique l’emplacement où le fichier sera téléchargé.
Note :
La suppression du champ contenant une icône de dossier dans son nom annulera les paramètres de téléchargement.
Si vous avez déjà configuré un champ pour extraire l’URL de téléchargement, vous pouvez cliquer sur Plus → Télécharger les fichiers.
Nommer les fichiers téléchargés — Vous pouvez facilement renommer les fichiers téléchargés en utilisant l’une des quatre options proposées. Ces options se trouvent dans le panneau d’astuces après avoir cliqué sur le fichier du document.
MD5 Hash Value : Utiliser la valeur MD5 pour nommer les fichiers
Nom du fichier original : Utiliser le nom de fichier original par défaut
Délai de réalisation : Utiliser l’heure de fin de téléchargement pour nommer les fichiers
Valeur du champ de données : Utiliser la valeur d’un champ de données pour nommer le fichier
Que faire si le nom du fichier existe déjà — Si un fichier portant le même nom existe déjà dans le dossier, trois options s’offrent à vous pour gérer cette situation :
Sauter le nouveau dossier : Sauter le fichier téléchargé actuel
Remplacer le fichier existant : Remplacer le fichier existant par le nouveau fichier téléchargé
Renommer le nouveau fichier : Renommer le nouveau fichier en ajoutant un (1) à la fin du nom du fichier
2. Télécharger les images
Le téléchargement d'images vers des dossiers locaux partage la même logique que le téléchargement de fichiers.
Cliquer sur une image
Sélectionner Choisir les éléments similaires
Cliquer respectivement sur Image URL et Fichiers d'image - Pour extraire les liens ainsi que télécharger les images dans des dossiers locaux
Note :
Seules les URL complètes avec "https://" peuvent être téléchargées directement avec Octoparse. Si la valeur de l'URL récupérée n'est qu'une partie du lien de téléchargement complet, vous pouvez utiliser la fonction d'Ajouter un préfixe Add ou d'autres fonctions d'affinage des données dans la fonction Nettoyer les données pour obtenir les liens de téléchargement valides.
3. Paramètres de téléchargement
3.1 Paramètres de téléchargement de fichiers
Cliquez sur l'icône de la flèche à côté du champ de données
Vous pouvez renommer les fichiers téléchargés, décider le mode de séparation d'URL et définir des URL à sauter pour les fichiers téléchargés ici.
3.2 Paramètres de téléchargement local
Cliquez sur l'icône des paramètres de la tâche à droite en haut pour ouvrir les paramètres de la tâche
Cliquez sur le bouton Parcourir - Choisissez un dossier local pour les fichiers et les images téléchargés.
Choisissez un mode de notification quand une exécution locale commence
Cliquez sur Sauvegarder pour sauvegarder toutes les modifications