Idealista è uno dei principali marketplace immobiliari del sud europa. In questo tutorial ti presenteremo come estrarre le informazioni sugli immobili su Idealista.it.
Per risparmiare il tempo, si può sempre andare alla Templates Gallery a utilizzare i modelli predefiniti di Idealista.it e raccogliere velocemente le informazioni immobiliari con pochi clic. Per ulteriori dettagli, puoi verificarlo qui: Modelli
È possibile anche costruire un'attività di scraping da se stesso in modo da adattarla meglio alle tue esigenze. I principali passaggi sono visualizzati nel menù alla destra.
Potrebbe essere necessario il link di esempio per seguire i passaggi:
1. Go to Web Page: per aprire il sito web di destinazione
Inserire l'URL nella homepage e cliccare su Start
2. Auto-detect the web page: per creare il flusso di lavoro
Fare clic su Auto-detect web page data (rileva automaticamente i dati della pagina web) e attendere il completamento del rilevamento
Deselezionare la casella Add a page scroll (aggiungi uno scorrimento di pagina)
Fare clic su Crea workflow (crea flusso di lavoro)
Un'azione di Pagination e di Loop Item verrebbero generati automaticamente nel flusso di lavoro.
Fare clic su Altro e poi Delete field (elimina campo) per cancellare i dati indesiderati
Fare doppio clic sull'intestazione dei campi dati che vuoi per rinominarli
Se tutti i dati di cui hai bisogno possono essere estratti dalla pagina della lista, puoi fermarti qui e passare a impostare il limite di tempo per il caricamento AJAX per l'azione Click to Paginate. Se desideri accedere alla pagina dei dettagli di ciascun prodotto per ottenere maggiori informazioni, procedi nei seguenti passaggi.
Attenzione: Se incontri reCAPTCHA quando apri la pagina Idealista in Octoparse, puoi passare alla modalità di Navigazione in alto a destra e risolvere manualmente il reCAPTCHA.
3. Fare clic sul link di ogni prodotto: per ottenere ulteriori informazioni
Cliccare sul primo elemento nella pagina e scegliere Click URL (clicca sull'url) sul pannello dei suggerimenti
Arrivato a questo passaggio, il flusso di lavoro dovrebbe assomigliare a:
4. Extract Data: per estrarre i dati dalle pagine dei dettagli
Selezionare le informazioni che vuoi sulla pagina web
Scegliere Text
Ripetere i passaggi precedenti per estrarre tutti i dati necessari
5. Impostare il timeout di caricamento AJAX per l'azione Click to Paginate
Fare clic per aprire le impostazioni dell'azione Click to Paginate
Andare su Opzioni
Spuntare la casella Load with AJAX (carica con AJAX) e selezionare 10 come timeout AJAX
6. Aggiungere un tempo di attesa: per rallentare la velocità di estrazione
Idealista potrebbe limitare l'accesso al sito con reCAPTCHA se rileva che stai effettuando lo scraping troppo velocemente, quindi dobbiamo controllare la velocità di estrazione.
Fare clic sull'azione Click Item
Andare alle Options
Spuntare la casella Wait before action e impostare il tempo a 5s
Cliccare su Apply per salvare
Ripetere gli stessi passaggi per l'azione Extract Dara1
7. Eseguire l'estrazione
Fare clic su Save
Cliccare su Run in alto a destra
Scegliere Run on your device (esegui sul tuo dispositivo) per eseguire l'attività sul tuo computer
Suggerimenti:
Nel caso di Idealista consigliamo l'esecuzione locale per garantire l'estrazione a causa del problema reCAPTCHA.
Per evitare blocchi è consigliabile utilizzare anche IP Proxy in esecuzione locale. Per ulteriori informazioni è possibile consultare: Configurare i proxy
Ecco i dati di esempio esportati: