Si vous avez rencontré l'un des problèmes ci-dessous, vous pouvez essayer de configurer des proxies IP manuellement dans Octoparse :
Impossible de se connecter à Octoparse parce que votre entreprise ou institution utilise un intranet et restreint les requêtes externes.
Le site web cible est très sensible au web scraping et met en place des stratégies anti-scraping telles que le blocage d'IP pour stopper les activités de scraping.
Dans ce tutoriel, nous allons montrer comment configurer des proxys avec la dernière version pour résoudre les problèmes mentionnés ci-dessus.
1. Utiliser un proxy pour se connecter à Octoparse
Ceci est conçu pour les utilisateurs dont l'entreprise restreint les requêtes externes. La configuration du proxy dans l'interface de connexion ne sera appliquée que pendant le processus de connexion et ne sera pas appliquée pour l'édition de tâches ou le scraping.
Allez dans les paramètres de l'interface de connexion
Choisissez Configuration manuelle du proxy et saisissez l'adresse IP et le port.
Vous pouvez tester la connexion pour voir si elle est bonne, puis confirmer la configuration.
2. Rotation des serveurs proxy externes pour contrer le blocage des IP
Les IP du Cloud Octoparse sont des IP de centre de données, qui peuvent être bloquées. Si un site web bloque votre IP ou notre Cloud, vous pouvez configurer un proxy IP dans les paramètres de la tâche. Vous pouvez utiliser vos propres proxys IP ou utiliser les proxys intégrés d'Octoparse.
La configuration du proxy ne sera appliquée que lorsque la tâche s'exécute et ne sera pas appliquée lorsque vous modifiez la tâche.
2.1 Configurer les proxys intégrés d'Octoparse
Les proxys Octoparse sont des IP résidentielles, ils fonctionnent donc mieux en évitant d'être bloqués.
Ouvrez la tâche pour laquelle vous souhaitez configurer des proxies
Allez dans Paramètres de la tâche > Anti-blocage
Cochez Accéder aux sites web via proxys
Cliquez sur Utiliser les proxies Octoparse
Sélectionnez Défaut ou Pays/Région que vous souhaitez pour l'adresse IP (Défaut signifie utiliser des IP de pays aléatoires)
Choisissez temps de rotation comme l'intervalle de rotation
Cliquez sur le bouton Sauvegarger dans le coin supérieur gauche de l'interface pour enregistrer vos paramètres.
REMARQUE :
Les proxies Octoparse ne sont disponibles qu'à partir de la version 8.5.4. Vous pouvez télécharger la nouvelle version ici.
Les proxys Octoparse coûtent 3$/Go. Assurez-vous d'avoir suffisamment de crédits Proxy ou de crédits de compte pour utiliser cette fonctionnalité. Pour activer les proxies IP, vous devez disposer d'au moins 3 $ de crédits de compte. Les crédits de compte affichés sur la page peuvent être utilisés pour l'achat de proxies. Vous pouvez simplement recharger vos crédits en cliquant sur le bouton Ajouter des crédits.
L'utilisation des proxys est basée sur le trafic de chargement des pages.
Les proxys de 1 Go peuvent généralement récupérer 500 pages web. Les proxys peuvent ne pas fonctionner pour toutes les pages web. Vous pouvez ajouter des crédits pour effectuer des tests au préalable.
Les crédits de proxy ne peuvent pas être remboursés.
2.2 Utiliser vos propres proxys IP
Une autre façon de mettre en place des proxies IP est d'accéder à votre propre IP dans Octoparse. Vos propres proxys IP ne peuvent être appliqués que dans les exécutions locales.
Cochez Utiliser mes propres proxys
Cliquez sur Configurer
Saisissez IP Proxies dans la case
Confirmer les paramètres
NOTE : Octoparse ne peut supporter que les proxys HTTP - veuillez séparer l'adresse IP du serveur proxy et le numéro de port par deux points. ex. 58.22.214.29:2318.