Pourquoi la tâche n'obtient-elle aucune donnée dans le Cloud mais fonctionne bien lorsqu'elle est exécutée localement ?

Il arrive que l'extraction Cloud ne renvoie aucune donnée pour une tâche qui fonctionne parfaitement en local. Dans cet article, nous allons vous montrer quelques astuces pour résoudre ce problème.

Voici quelques-unes des principales raisons pour lesquelles aucune donnée n'est renvoyée dans l'extraction Cloud :

1. Le site web cible ne se charge pas complètement ou les données à extraire ne sont pas chargées.

Le temps de chargement du site web dépend de la condition de l'Internet et du temps de réponse du site web. Lorsque vous testez le site web sur un ordinateur local, le temps de chargement peut être plus court que dans le Cloud.

Si aucune donnée n'est extraite, essayez d'augmenter le délai d'attente pour l'action Aller à la page web. Vous pouvez trouver une sélection pour le délai d'attente au bas de la page.

Si un délai plus long n'aide pas, vous pouvez essayer de changer le navigateur UA dans les paramètres de la tâche vers Chrome 91 Linux, ou Safari 15.1, ce qui aide à charger la page web.

Cliquez sur Paramètres de la tâche dans le coin supérieur droit de l'écran.

Sélectionnez Paramètres d'exécution et pui sélectionnez Chrome 91.0 pour Linux ou Safari 15.1 comme navigateur.

Vous pouvez également essayer de configurer le pool d'adresses IP pour changer les options telles que avec FR, JP ou UK 2.

2. Les IP Cloud ne peuvent pas accéder au site web en raison d'une fréquence trop élevée de requêtes.

De nombreux sites web appliquent des techniques anti-scraping afin d'éviter d'être scrappés. Ils peuvent limiter le nombre d'accès des IP pendant un certain temps et bloquer toute IP qui dépasse cette limite.

Certains sites web peuvent même bloquer toutes les IP d'un lieu, par exemple, un site web japonais ne peut pas être ouvert au Canada.

Si les IP sont blacklistées en raison d'un scraping trop fréquent, vous pouvez résoudre ce problème en ajoutant un temps d'attente pour ralentir l'extraction.

S'il s'agit d'une restriction à la localisation des IPs, il faut changer la location du pool d'adresses IP ou utiliser les proxies résidentiels payants.

Pour l'instant, le pool d'adresses IP publique est limité aux pays principaux quand les proxies résidentiels couvrent une grande partie des pays ou régions maintenant.

3. Il y a un CAPTCHA à résoudre avant d'accéder à la page web

Le CAPTCHA est également une méthode fréquemment utilisée par un site web pour lutter contre le web scraping. Le site web peut reconnaître que c'est une IP de serveur Cloud et non une IP résidentielle qui accède aux pages. Dans de nombreux cas, le CAPTCHA s'affiche directement lorsque nous ouvrons la première page du site web, ce qui interrompt tout le processus de scraping. Il est difficile de résoudre le CAPTCHA dans le Cloud.

Maintenant, nous pouvons résoudre plusieurs genres de CAPTCHA automatiquement et vous pouvez consulter ce tutoriel pour continuer. Si un tel problème existe encore, veuillez nous contacter et nous allons trouver une solution spécialement pour votre demande.

4. La connexion au site web cible a échoué

Si vous mettez en place des étapes de connexion ou enregistrez des cookies dans une tâche de balayage d'un site web, l'extraction locale fonctionnera parfaitement, mais l'extraction dans le nuage peut échouer en raison de la rotation de différentes IP lors de l'exécution.

De nombreux sites web demandent une vérification avant la connexion. Ce type de vérification, comme le CAPTCHA, ne peut pas être résolu par l'extraction en Cloud.

Les cookies sauvegardés ont toujours une durée de validité et ne fonctionneront plus lorsqu'ils auront expiré. Pour résoudre ce problème, vous devrez suivre à nouveau les étapes de connexion afin d'obtenir et de sauvegarder les cookies mis à jour. (Voir comment sauvegarder les cookies)

5. Le design HTML du site web est différent lorsqu'il est ouvert dans le Cloud.

Pour Octoparse, l'extraction des données web consiste à récupérer le contenu du code source/fichier HTML. Il doit reconnaître le code HTML pour savoir quelles données extraire. Dans certains cas, la conception du site Web est différente dans le Cloud, ce qui entraîne un échec de l'extraction.

Par exemple, lorsque vous ouvrez le site Sephora.com avec une adresse IP chinoise, la page est redirigée vers Sephora.cn. La conception des sites pour les différents sites est totalement différente. Par conséquent, lorsque vous utilisez l'extraction du Cloud Octopare, assurez-vous que vous extrayez un site qui ne sera pas redirigé en fonction de l'emplacement de l'IP.

Même si le site web n'est pas redirigé, le code source peut également être légèrement modifié dans un navigateur différent dans des conditions de réseau différentes.

Comment identifier la cause de l'échec de l'extraction dans le Cloud ?

Le processus d'extraction dans le Cloud d'Octoparse ne peut pas être vu comme une extraction locale. Il y a un moyen simple de tester ce qui se passe dans le Cloud : extraire le code HTML extérieur de la page entière du site web.

Vous pouvez suivre les étapes suivantes pour extraire le code HTML :

Étape 1. Après avoir ouvert la page du site web, cliquez n'importe où pour déclencher les "Conseils", par exemple, nous cliquons sur "Octoparse" sur cette page.

Étape 2. Cliquez sur la balise HTML en bas du panneau Astuces et extrayez le code HTML extérieur.

Étape 3. Exécuter la tâche dans le Cloud et obtenir le code HTML

Étape 4. Copiez les données extraites dans un fichier texte et enregistrez-les en tant que fichier HTML.

Étape 5. Ouvrez le fichier HTML avec Chrome ou Firefox pour voir comment la page du site web se charge dans le Cloud.

Étape 6. Consultez la page web pour connaître la raison de l'échec de l'extraction.

Par exemple, si la page affiche "Accès refusé", cela signifie que l'IP du nuage est bloquée. Si la page a la même apparence, vous pouvez inspecter attentivement le code HTML pour obtenir le XPath correct pour l'extraction.