Vai al contenuto principale

Raccolta di una lista di dati

Aggiornato più di un anno fa

I contenuti delle pagine web sono generalmente organizzati secondo una sorta di schema. Uno dei modelli più comunemente visti è una lista. Ecco alcuni esempi di quando il contenuto è disposto come una lista.

Lo scraping di una lista è semplice e veloce con la funzione di rilevamento automatico di Octoparse. Basandosi sul suo algoritmo avanzato, Octoparse è in grado di rilevare automaticamente gli elementi da una lista e di generare automaticamente il flusso di lavoro delle attività. Con questa funzionalità potente di Octoparse, raschiare una lista non potrebbe essere più semplice. Ora vediamo come si fa con un esempio.

Questa pagina web particolare è composta da elementi che condividono la stessa struttura. Ogni elemento contiene un titolo, una data, una parola chiave, un articolo, ecc..

Il nostro obiettivo è estrarre i dati in excel come sotto:

Allora, scopriamo metodi diversi di farlo in Octoparse:

Potresti avere bisogno di questo link per seguire i passaggi: http://test-sites.octoparse.com/?page_id=6


1. Estrazione di una lista con il rilevamento automatico

Dopo aver creato una nuova attività utilizzando l'URL di esempio, seleziona "Auto-detect web page data (rileva automaticamente i dati della pagina web)". Octoparse ora rileverà tutti i dati sulla pagina e potrai fare clic su "Create workflow (crea flusso di lavoro)" per generare il flusso di lavoro.

In seguito, si può modificare i campi nell'Anteprima dei dati

  • Cancellare i campi non desiderati

  • Fare doppio clic sulle intestazioni dei campi dati per rinominarli


2. Estrazione manuale di una lista

Se per qualche motivo il rilevamento automatico non riesce a rilevare la lista o se stai creando un'attività senza rilevamento automatico, puoi sempre estrarre i dati manualmente.

Metodo 1:

  • Posizionare il cursore sul primo elemento finché l'intera sezione non viene evidenziata in azzurro, quindi fare clic su di esso

  • Continuare a cliccare sul secondo oggetto e si troverà tutto ciò di cui hai bisogno nella pagina selezionata.

  • Scegliere Text (testo) e Octoparse creerà automaticamente un Loop Item

Ora puoi selezionare informazioni come titolo, data e parola chiave dalla pagina web per creare campi diversi.

  • Selezionare il titolo e scegliere Text

  • Ripetere i passaggi per ottenere altre informazioni

  • Fare doppio clic sul nome del campo dati per rinominarlo se necessario

Metodo 2:

  • Passare il cursore sul primo elemento finché l'intera sezione non viene evidenziata in azzurro

Troverai che Octoparse rileva i sottoelementi dalla sezione e li evidenzia in rosso.

  • Scegliere Select all child elements (seleziona tutti gli elementi secondari)

  • Scegliere Select all similar groups (seleziona tutti i gruppi simili)

  • Selezionare Element data (dati elemento)

Verrà generato automaticamente un loop item per fare lo scraping a la lista di elementi nella pagina.

Hai ricevuto la risposta alla tua domanda?