Passer au contenu principal

Configurer les proxies IP

Mis à jour il y a plus d'un an

Si vous avez rencontré l'un des problèmes ci-dessous, vous pouvez essayer de configurer des proxies IP manuellement dans Octoparse :

  • Impossible de se connecter à Octoparse parce que votre entreprise ou institution utilise un intranet et restreint les requêtes externes.

  • Le site web cible est très sensible au web scraping et met en place des stratégies anti-scraping telles que le blocage d'IP pour stopper les activités de scraping.

Dans ce tutoriel, nous allons montrer comment configurer des proxys avec la dernière version pour résoudre les problèmes mentionnés ci-dessus.


1. Utiliser un proxy pour se connecter à Octoparse

Ceci est conçu pour les utilisateurs dont l'entreprise restreint les requêtes externes. La configuration du proxy dans l'interface de connexion ne sera appliquée que pendant le processus de connexion et ne sera pas appliquée pour l'édition de tâches ou le scraping.

  • Allez dans les paramètres de l'interface de connexion

  • Choisissez Configuration manuelle du proxy et saisissez l'adresse IP et le port.

  • Vous pouvez tester la connexion pour voir si elle est bonne, puis confirmer la configuration.

2. Rotation des serveurs proxy externes pour contrer le blocage des IP

Les IP du Cloud Octoparse sont des IP de centre de données, qui peuvent être bloquées. Si un site web bloque votre IP ou notre Cloud, vous pouvez configurer un proxy IP dans les paramètres de la tâche. Vous pouvez utiliser vos propres proxys IP ou utiliser les proxys intégrés d'Octoparse.

La configuration du proxy ne sera appliquée que lorsque la tâche s'exécute et ne sera pas appliquée lorsque vous modifiez la tâche.

2.1 Configurer les proxys intégrés d'Octoparse

Les proxys Octoparse sont des IP résidentielles, ils fonctionnent donc mieux en évitant d'être bloqués.

  • Ouvrez la tâche pour laquelle vous souhaitez configurer des proxies

  • Allez dans Paramètres de la tâche > Anti-blocage

  • Cochez Accéder aux sites web via proxys

  • Cliquez sur Utiliser les proxies Octoparse

  • Sélectionnez Défaut ou Pays/Région que vous souhaitez pour l'adresse IP (Défaut signifie utiliser des IP de pays aléatoires)

  • Choisissez temps de rotation comme l'intervalle de rotation

  • Cliquez sur le bouton Sauvegarger dans le coin supérieur gauche de l'interface pour enregistrer vos paramètres.

REMARQUE :

Les proxies Octoparse ne sont disponibles qu'à partir de la version 8.5.4. Vous pouvez télécharger la nouvelle version ici.

Les proxys Octoparse coûtent 3$/Go. Assurez-vous d'avoir suffisamment de crédits Proxy ou de crédits de compte pour utiliser cette fonctionnalité. Pour activer les proxies IP, vous devez disposer d'au moins 3 $ de crédits de compte. Les crédits de compte affichés sur la page peuvent être utilisés pour l'achat de proxies. Vous pouvez simplement recharger vos crédits en cliquant sur le bouton Ajouter des crédits.

L'utilisation des proxys est basée sur le trafic de chargement des pages.

Les proxys de 1 Go peuvent généralement récupérer 500 pages web. Les proxys peuvent ne pas fonctionner pour toutes les pages web. Vous pouvez ajouter des crédits pour effectuer des tests au préalable.

Les crédits de proxy ne peuvent pas être remboursés.

2.2 Utiliser vos propres proxys IP

Une autre façon de mettre en place des proxies IP est d'accéder à votre propre IP dans Octoparse. Vos propres proxys IP ne peuvent être appliqués que dans les exécutions locales.

  • Cochez Utiliser mes propres proxys

  • Cliquez sur Configurer

  • Saisissez IP Proxies dans la case

  • Confirmer les paramètres

NOTE : Octoparse ne peut supporter que les proxys HTTP - veuillez séparer l'adresse IP du serveur proxy et le numéro de port par deux points. ex. 58.22.214.29:2318.

Avez-vous trouvé la réponse à votre question ?