Vai al contenuto principale

Come estrarre dati immobiliari di Idealista

Aggiornato più di un anno fa

Idealista è uno dei principali marketplace immobiliari del sud europa. In questo tutorial ti presenteremo come estrarre le informazioni sugli immobili su Idealista.it.

Per risparmiare il tempo, si può sempre andare alla Templates Gallery a utilizzare i modelli predefiniti di Idealista.it e raccogliere velocemente le informazioni immobiliari con pochi clic. Per ulteriori dettagli, puoi verificarlo qui: Modelli

È possibile anche costruire un'attività di scraping da se stesso in modo da adattarla meglio alle tue esigenze. I principali passaggi sono visualizzati nel menù alla destra.

Potrebbe essere necessario il link di esempio per seguire i passaggi:


1. Go to Web Page: per aprire il sito web di destinazione

  • Inserire l'URL nella homepage e cliccare su Start


2. Auto-detect the web page: per creare il flusso di lavoro

  • Fare clic su Auto-detect web page data (rileva automaticamente i dati della pagina web) e attendere il completamento del rilevamento

  • Deselezionare la casella Add a page scroll (aggiungi uno scorrimento di pagina)

  • Fare clic su Crea workflow (crea flusso di lavoro)

Un'azione di Pagination e di Loop Item verrebbero generati automaticamente nel flusso di lavoro.

  • Fare clic su Altro e poi Delete field (elimina campo) per cancellare i dati indesiderati

  • Fare doppio clic sull'intestazione dei campi dati che vuoi per rinominarli

Se tutti i dati di cui hai bisogno possono essere estratti dalla pagina della lista, puoi fermarti qui e passare a impostare il limite di tempo per il caricamento AJAX per l'azione Click to Paginate. Se desideri accedere alla pagina dei dettagli di ciascun prodotto per ottenere maggiori informazioni, procedi nei seguenti passaggi.

Attenzione: Se incontri reCAPTCHA quando apri la pagina Idealista in Octoparse, puoi passare alla modalità di Navigazione in alto a destra e risolvere manualmente il reCAPTCHA.


3. Fare clic sul link di ogni prodotto: per ottenere ulteriori informazioni

  • Cliccare sul primo elemento nella pagina e scegliere Click URL (clicca sull'url) sul pannello dei suggerimenti

Arrivato a questo passaggio, il flusso di lavoro dovrebbe assomigliare a:


4. Extract Data: per estrarre i dati dalle pagine dei dettagli

  • Selezionare le informazioni che vuoi sulla pagina web

  • Scegliere Text

  • Ripetere i passaggi precedenti per estrarre tutti i dati necessari


5. Impostare il timeout di caricamento AJAX per l'azione Click to Paginate

  • Fare clic per aprire le impostazioni dell'azione Click to Paginate

  • Andare su Opzioni

  • Spuntare la casella Load with AJAX (carica con AJAX) e selezionare 10 come timeout AJAX


6. Aggiungere un tempo di attesa: per rallentare la velocità di estrazione

Idealista potrebbe limitare l'accesso al sito con reCAPTCHA se rileva che stai effettuando lo scraping troppo velocemente, quindi dobbiamo controllare la velocità di estrazione.

  • Fare clic sull'azione Click Item

  • Andare alle Options

  • Spuntare la casella Wait before action e impostare il tempo a 5s

  • Cliccare su Apply per salvare

  • Ripetere gli stessi passaggi per l'azione Extract Dara1


7. Eseguire l'estrazione

  • Fare clic su Save

  • Cliccare su Run in alto a destra

  • Scegliere Run on your device (esegui sul tuo dispositivo) per eseguire l'attività sul tuo computer

Suggerimenti:

  • Nel caso di Idealista consigliamo l'esecuzione locale per garantire l'estrazione a causa del problema reCAPTCHA.

  • Per evitare blocchi è consigliabile utilizzare anche IP Proxy in esecuzione locale. Per ulteriori informazioni è possibile consultare: Configurare i proxy

Ecco i dati di esempio esportati:

Hai ricevuto la risposta alla tua domanda?