Octoparse offre agli utenti qualche campo dati predefiniti molto utili e comodi. Si possono anche aggiungere un valore fisso alla propria attività.
Dove posso aggiungere i campi dati predefiniti?
Nell'Anteprima dei dati si può aggiungere i campi dati desiderati come l'esempio sottoposto.
Che campi dati predefiniti posso aggiungerci?
Esistono 5 tipi di campi personalizzati:
1. Catturare dati sulla pagina
Questa opzione ti guiderà a catturare altri elementi che desideri raccogliere sullo schermo.
2. Data e ora attuale
Rappresenta l'ora di estrazione quando viene raccolta una linea dati. Ad esempio, se hai un'attività pianificata che viene eseguita ogni giorno e desideri conoscere la data in cui vengono estratte le linee dati, puoi aggiungere questo campo.
Suggerimenti:
Puoi riformattare la data con il perfezionamento della data e ora dell'estrazione per cambiare il formato del campo dell'orario corrente.
Aggiungere l'ora attuale nell'estrazione Cloud può aiutare a mantenere tutti i duplicati: Come posso mantenere i duplicati nelle esecuzioni Cloud?
L'orario nell'estrazione Cloud è in tempo UTC.
3. Aggiungere un campo dei dati a livello di pagina
URL della pagina: l'url della pagina attuale
Titolo della pagina: il titolo della pagina attuale, il quale è una breve descrizione di una pagina web e viene visualizzato nella parte superiore della finestra del browser.
Meta description: il tag della meta description della pagina attuale, che contiene un riepilogo della pagina.
Meta keywords: il tag della meta parola chiave della pagina attuale
Codice sorgente HTML: il codice HTML completo della pagina web
4. Aggiungere un valore fisso
Questa opzione consente di creare un valore fisso per ogni linea dati.
Puoi impostare il nome del campo personalizzato o scegliere dai Common fields (campi comuni), quindi inserire il valore fisso che desideri aggiungere (se devi aggiungere un campo vuoto, lascia semplicemente vuota la casella inserisci testo)
5. Aggiungere URL originali input
Se fare lo scraping a una lista di URL, potresti voler ottenere l'URL di input originale come campo insieme ai dati target in modo da poterli abbinare per vedere se ci sono URL che non sono stati fatti il crawling.