I contenuti delle pagine web sono generalmente organizzati secondo una sorta di schema. Uno dei modelli più comunemente visti è una lista. Ecco alcuni esempi di quando il contenuto è disposto come una lista.
Lo scraping di una lista è semplice e veloce con la funzione di rilevamento automatico di Octoparse. Basandosi sul suo algoritmo avanzato, Octoparse è in grado di rilevare automaticamente gli elementi da una lista e di generare automaticamente il flusso di lavoro delle attività. Con questa funzionalità potente di Octoparse, raschiare una lista non potrebbe essere più semplice. Ora vediamo come si fa con un esempio.
Questa pagina web particolare è composta da elementi che condividono la stessa struttura. Ogni elemento contiene un titolo, una data, una parola chiave, un articolo, ecc..
Il nostro obiettivo è estrarre i dati in excel come sotto:
Allora, scopriamo metodi diversi di farlo in Octoparse:
Potresti avere bisogno di questo link per seguire i passaggi: http://test-sites.octoparse.com/?page_id=6
1. Estrazione di una lista con il rilevamento automatico
Dopo aver creato una nuova attività utilizzando l'URL di esempio, seleziona "Auto-detect web page data (rileva automaticamente i dati della pagina web)". Octoparse ora rileverà tutti i dati sulla pagina e potrai fare clic su "Create workflow (crea flusso di lavoro)" per generare il flusso di lavoro.
In seguito, si può modificare i campi nell'Anteprima dei dati
Cancellare i campi non desiderati
Fare doppio clic sulle intestazioni dei campi dati per rinominarli
2. Estrazione manuale di una lista
Se per qualche motivo il rilevamento automatico non riesce a rilevare la lista o se stai creando un'attività senza rilevamento automatico, puoi sempre estrarre i dati manualmente.
Metodo 1:
Posizionare il cursore sul primo elemento finché l'intera sezione non viene evidenziata in azzurro, quindi fare clic su di esso
Continuare a cliccare sul secondo oggetto e si troverà tutto ciò di cui hai bisogno nella pagina selezionata.
Scegliere Text (testo) e Octoparse creerà automaticamente un Loop Item
Ora puoi selezionare informazioni come titolo, data e parola chiave dalla pagina web per creare campi diversi.
Selezionare il titolo e scegliere Text
Ripetere i passaggi per ottenere altre informazioni
Fare doppio clic sul nome del campo dati per rinominarlo se necessario
Metodo 2:
Passare il cursore sul primo elemento finché l'intera sezione non viene evidenziata in azzurro
Troverai che Octoparse rileva i sottoelementi dalla sezione e li evidenzia in rosso.
Scegliere Select all child elements (seleziona tutti gli elementi secondari)
Scegliere Select all similar groups (seleziona tutti i gruppi simili)
Selezionare Element data (dati elemento)
Verrà generato automaticamente un loop item per fare lo scraping a la lista di elementi nella pagina.