Stai leggendo una guida tutorial per l'ultima versione di Octoparse. Se utilizzi una versione vecchia di Octoparse, ti consigliamo vivamente di aggiornarla perché è una versione più veloce, più semplice e più robusta! Scarica e aggiorna qui!
Se hai riscontrato uno dei problemi seguenti, potresti provare a configurare manualmente i proxy IP in Octoparse:
Impossibile accedere a Octoparse perché la tua azienda o istituzione utilizza Intranet e limita le richieste esterne
Il sito web di destinazione è molto sensibile al web scraping e implementa strategie anti-scraping come il blocco IP per interrompere le attività di scraping
In questo tutorial, mostreremo come impostare i proxy con l'ultima versione per risolvere i problemi sopra menzionati.
1. Utilizzare un proxy per accedere a Octoparse (solo per l'accesso)
La soluzione è progettata per gli utenti la cui azienda limita le richieste esterne. La configurazione del proxy nell'interfaccia di accesso verrà applicata solo durante il processo di login e NON verrà applicata per la modifica o lo scraping delle attività.
Andare alle impostazioni sull'interfaccia di accesso
Scegliere Configurazioni di proxy manuali e inserire l'indirizzo IP e la porta
Si può testare la connessione per vedere se la connessione funziona bene e poi confermare la configurazione
2. Ruotare i server proxy esterni per contrastare il blocco IP
Gli IP Octoparse Cloud sono IP di data center, che potrebbero essere bloccati. Se un sito web blocca il tuo IP o il nostro Cloud, puoi impostare un proxy IP nelle impostazioni dell'attività. Si possono utilizzare i propri proxy IP o usare i proxy integrati Octoparse.
La configurazione del proxy verrà applicata solo durante l'esecuzione dell'attività e non verrà applicata quando si modifica l'attività.
2.1 Configurare i proxy integrati Octoparse (sia per locale che per cloud)
I proxy Octoparse sono IP residenziali, quindi funzionano meglio per evitare di essere bloccati.
Aprire l'attività per la quale si desidera configurare i proxy
Andare su Impostazioni di attività > Anti-blocco
Spuntare la casella Accedi a siti web tramite proxy
Fare clic su Utilizza proxy Octoparse
Seleziona Predefinito o il paese/la regione che desideri per l'indirizzo IP (Predefinito indica utilizzare IP da paesi casuali)
Scegliere l'intervallo di rotazione a Ruota ogni
Fare clic sul tasto Salva nell'angolo in basso a destra dell'interfaccia per salvare le impostazioni
NOTA:
I proxy integrati Octoparse possono funzionare anche durante la creazione dell'attività (a partire dalla versione 8.6.8).
I proxy Octoparse costano $ 3/GB. Assicurati di avere abbastanza crediti proxy o crediti account per utilizzare questa funzione. Per abilitare i proxy IP, devi avere almeno $ 3 in crediti sull'account. I crediti dell'account visualizzati nella pagina possono essere utilizzati per gli acquisti tramite proxy. Puoi semplicemente ricaricare i tuoi crediti facendo clic sul pulsante Aggiungi credito.
L'utilizzo del proxy si basa sul traffico di caricamento della pagina.
I proxy da 1 GB di solito possono raschiare 500 pagine web. I proxy potrebbero non funzionare per tutte le pagine web. Puoi ricaricare alcuni crediti per eseguire prima i test.
I crediti proxy non possono essere rimborsati.
2.2 Utilizzare i tuoi proxy IP (solo per locale)
Un altro modo per impostare i proxy IP è accedere al proprio IP in Octoparse. I tuoi proxy IP possono essere applicati solo nelle esecuzioni locali.
Spuntare la casella Utilizza i miei proxy
Fare clic su Configura
Inserire nella casella i proxy IP
Confermare le impostazioni
NOTA: Octoparse può supportare solo proxy HTTP: separa l'indirizzo IP del server proxy e il numero di porta con due punti. (p. es. 58.22.214.29:2318.)