Octoparse non solo cattura informazioni dal corpo della pagina web, ma ottiene anche dati a livello di pagina tra cui URL della pagina web, titolo della pagina, meta descrizione, meta parole chiave e codice sorgente HTML.
Si può seguire i passaggi sotto per aggiungerli facilmente:
PASSAGGIO 1. Selezionare un passa di Extract data (estrarre dati) dal flusso di lavoro.
PASSAGGIO 2. Andare all'Anteprima dei dati e clicca su Add Custom Fields (aggiungi campi personalizzati).
PASSAGGIO 3. Posizionare il mouse su Page-level data (dati a livello di pagina) per scegliere i tuoi campi dati target.
PASSAGGIO 4 (opzionale). Fare doppio clic sul nome del campo per rinominarlo.
Esistono 5 tipi di dati che possono essere aggiunti in questo modo:
URL della pagina: l'url della pagina attuale
Titolo della pagina: il titolo della pagina attuale, il quale è una breve descrizione di una pagina web e viene visualizzato nella parte superiore della finestra del browser.
Meta description: il tag della meta description della pagina attuale, che contiene un riepilogo della pagina.
Meta parola chiave: il tag della meta parola chiave della pagina attuale
Codice sorgente HTML: il codice HTML completo della pagina web