Si vous avez rencontré l'un des problèmes ci-dessous, vous pouvez essayer de configurer des proxies IP manuellement dans Octoparse :
Impossible de se connecter à Octoparse parce que votre entreprise ou institution utilise un intranet et restreint les requêtes externes.
Le site web cible est très sensible au web scraping et met en place des stratégies anti-scraping telles que le blocage d'IP pour stopper les activités de scraping.
Dans ce tutoriel, nous allons montrer comment configurer des proxies avec la dernière version pour résoudre les problèmes mentionnés ci-dessus.
1. Utiliser un proxy pour se connecter à Octoparse (uniquement pour la connexion)
Ceci est conçu pour les utilisateurs dont l’entreprise restreint les requêtes externes. Le paramétrage du proxy dans l’interface de connexion ne sera appliqué que pendant le processus de connexion et ne sera pas utilisé pour l’édition ou l’extraction des tâches.
Allez dans les paramètres de l'interface de connexion
Choisissez Configurations manuelles de proxy et saisissez l'adresse IP et le port.
Vous pouvez tester la connexion pour voir si elle est bonne, puis confirmer la configuration.
2. Faire tourner des serveurs proxy externes pour contourner le blocage des IP
Les adresses IP Cloud d’Octoparse sont des IP de centres de données, qui peuvent être bloquées.
Si un site bloque votre IP ou notre Cloud, vous pouvez configurer un proxy IP dans les paramètres de la tâche. Vous avez le choix d’utiliser vos propres proxies IP ou les proxies intégrés d’Octoparse.
La configuration du proxy ne sera appliquée que lors de l’exécution de la tâche et ne sera pas utilisée pendant l’édition de la tâche.
2.1 Configurer les proxies intégrés d’Octoparse (pour les modes Local et Cloud)
Les proxies Octoparse sont des IP résidentielles, ce qui les rend plus efficaces pour éviter les blocages.
Ouvrez la tâche pour laquelle vous souhaitez configurer des proxies
Allez dans Paramètres de la tâche > Anti-blocage
Cochez Accéder à des sites web via des proxies
Cliquez sur Utiliser les proxies Octoparse
Sélectionnez Défaut ou Pays/Région que vous souhaitez pour l'adresse IP (Défaut signifie utiliser des IP de pays aléatoires)
Choisissez temps de rotation comme l'intervalle de rotation
Cliquez sur le bouton Sauvegarger pour enregistrer vos paramètres.
Note :
Les proxies intégrés d’Octoparse peuvent également fonctionner lors de la création de la tâche (à partir de la version 8.6.8).
Les proxys Octoparse coûtent 3$/Go. Assurez-vous d'avoir suffisamment de crédits Proxy ou de crédits de compte pour utiliser cette fonctionnalité. Pour activer les proxies IP, vous devez disposer d'au moins 3 $ de crédits de compte. Les crédits de compte affichés sur la page peuvent être utilisés pour l'achat de proxies. Vous pouvez simplement recharger vos crédits en cliquant sur le bouton Ajouter des crédits.
L'utilisation des proxys est basée sur le trafic de chargement des pages.
Les proxies de 1 Go peuvent généralement récupérer 500 pages web. Les proxies peuvent ne pas fonctionner pour toutes les pages web. Vous pouvez ajouter des crédits pour effectuer des tests au préalable.
Les crédits de proxies ne peuvent pas être remboursés.
2.2 Utiliser vos propres proxies IP (Pour le mode Local seulement)
Une autre façon de mettre en place des proxies IP est d'accéder à votre propre IP dans Octoparse. Vos propres proxies IP ne peuvent être appliqués que dans les exécutions locales.
Cochez Utiliser mes propres proxies
Cliquez sur Configurer
Saisissez IP Proxies dans la case
Confirmer les paramètres
NOTE : Octoparse ne peut supporter que les proxies HTTP - veuillez séparer l'adresse IP du serveur proxy et le numéro de port par deux points. ex. 58.22.214.29:2318.