Quando si lavora con i dati, la cosa più importante è ovviamente l'estrazione dei dati e, subito dopo, la pulizia dei dati. Nella lezione 3 ti presenteremo alcuni suggerimenti pratici per aiutarti a perfezionare il tuo set di dati dopo averlo estratto.
Ridenominare/rimuovere/duplicare/eliminare un campo di dati
Non appena i dati sono stati estratti e visualizzati nell'Anteprima dei dati, è ora possibile esaminare il set di dati e iniziare a ordinare i dati. Ci sono alcune cose tipiche che si può fare per perfezionare il set di dati, come rinominare i campi di dati, riordinare le colonne, duplicare i campi dati ed eliminare i campi che non sono necessari per il tuo progetto.
Per rinominare un campo, fare doppio clic sul nome del campo, quindi inserire direttamente il nome nuovo. Tieni presente che dovresti utilizzare solo numeri, lettere e "_" per i nomi dei campi.
Per spostare un campo, posiziona il cursore nella parte anteriore del campo e quando viene visualizzato il segno della mano, trascina e rilascia il campo nel punto giusto.
Se si vuole eliminare un campo, clicca su l'icona .../ More e seleziona Delete.
Pulire i dati
Octoparse offre molti modi diversi per pulire i dati. Ad esempio, è possibile sostituire una stringa di testo, tagliare spazi aggiuntivi, aggiungere un prefisso/suffisso, sostituire una stringa con RegEx, riformattare data/ora e altro ancora. Puoi pulire qualsiasi campo dati in uno o più modi finché i dati non soddisfano i tuoi requisiti. Alcuni modi della pulizia potrebbero richiedere la gestione delle espressioni regolari. In questo caso si può utilizzare lo strumento Octoparse RegEx per assistenza.
Nell'Anteprima dei dati, fai clic sull'icona di mostra altro del campo dati che desideri perfezionare e seleziona Clean data (pulisci i dati).
Seleziona Add Step (aggiungi passaggio), quindi seleziona cosa desideri fare con i dati. Puoi continuare a lavorare con i dati aggiungendo altri passaggi finché i dati non soddisfano i tuoi requisiti.
Replace (sostituisci): sostituire le stringhe specifiche nei dati estratti con le nuove stringhe desiderate.
Replace with Regular Expression (sostituisci con espressioni regolari): utilizzare un'espressione regolare specifica per sostituire le stringhe corrispondenti nei dati estratti con le stringhe desiderate.
Match with Regular Expression (corrispondi con espressioni regolari): utilizzare un'espressione regolare specifica per raccogliere le stringhe corrispondenti dai dati estratti.
Trim spaces (taglia spazi aggiuntivi): rimuovere gli spazi indesiderati dall'inizio e/o dalla fine dei dati estratti.
Add a prefix (aggiungi un prefisso): aggiungere una stringa/stringa davanti ai dati estratti.
Add a suffix (aggiungi un suffisso): aggiungere una stringa/stringa alla fine dei dati estratti.
Reformat extracted date/time (riformatta data/ora estratta): spostare la data/ora estratta in uno dei 14 formati integrati o nel tuo formato personalizzato.
Timestamp conversion (conversione di marca temporale): una marca temporale è una stringa di messaggio codificato utilizzata per identificare una data e un'ora registrate. È possibile utilizzare la conversione del timestamp per convertire una stringa nel formato temporale corretto.
HTML: convertire automaticamente alcuni tag HTML specifici in testo semplice. Ad esempio, transcodifica ">" in ">" e " " in uno spazio.
Nota: Vuoi scoprire di più sullo strumento di espressione regolare Octoparse? Controllaci! |
Acquisire i codici HTML
Quando viene utilizzato il rilevamento automatico per acquisire dati da una pagina web, Octoparse estrae automaticamente il testo e l'URL degli elementi. Tuttavia, puoi personalizzare manualmente il campo dati e dire a Octoparse di estrarre invece qualsiasi codice HTML.
Nell'Anteprima dei dati, fai clic sull'icona di mostra altro e seleziona "Customize field", quindi scegli come desideri ottenere i dati selezionati.
Estrarre dati a livello di pagina e data e ora
Octoparse offre una serie di campi dati predefiniti che puoi utilizzare per acquisire comodamente dati a livello di pagina, data e ora correnti o qualsiasi valore fisso.
Current date & time (data e ora correnti): la data e l'ora in cui i dati vengono estratti dalla pagina web.
Page-level data (dati a livello di pagina): URL della pagina, titolo della pagina, meta parola chiave, meta descrizione e codice sorgente HTML.
Fixed value (valore fisso): qualsiasi valore fisso che definisci.
Fai clic sul segno + nell'angolo in alto a destra dell'Anteprima dei dati. Seleziona eventuali campi dati predefiniti che desideri aggiungere al set di dati.
Continua a leggere >> Lezione 4: Provare l'attività