Non è emozionante che tu stia per finire il tuo primo compito di scraping? C'è solo un'altra cosa che dovresti fare (o meglio fare) prima di eseguire la tua attività: controlla il flusso di lavoro passo dopo passo per assicurarti che le cose funzionino come previsto. Con un'esecuzione di prova, vedrai se è necessario modificare le impostazioni dell'attività per acquisire i dati in modo accurato.
Per dimostrare il processo, continueremo a utilizzare il sito di prova come esempio: http://test-sites.octoparse.com/?product_cat=e-commerce-category-1
Passaggi dell'esecuzione di prova del flusso di lavoro
È sempre bene ricordare che i passaggi del flusso di lavoro devono essere sempre letti dall'alto verso il basso e dall'interno verso l'esterno per i passaggi nidificati.
Quindi, per il nostro esempio, dovremmo testare i passaggi in questo ordine:
Go to Web Page → verifica se la pagina web viene caricata correttamente
Pagination → controlla se il pulsante di pagina successiva è stato individuato giustamente
Click to Paginate → esamina se la pagina web pagina in modo corretto
Loop Item → verifica se l'elenco di oggetti è completo e giusto
Extract Data → controlla se i dati vengono selezionati ed estratti correttamente
È necessario menzionare che non tutte le attività vengono create uguali, potresti avere un'attività completamente diversa con cui testare, ma la metodologia di test può generalmente essere estesa a attività di tutti i tipi. Iniziamo!
1. Clicca su Go to Web Page
Dopo aver fatto clic sul passaggio, la pagina web dovrebbe essere caricata nel browser integrato. Se la pagina web si carica bene, non c'è nulla di cui preoccuparsi; tuttavia, ci sono alcune cose a cui dovresti sempre prestare particolare attenzione.
1.1 Se la pagina web viene caricata con lo scorrimento infinito → è necessario selezionare "Scroll down the page after it is loaded" (scorri la pagina verso il basso dopo il caricamento) e completare le impostazioni appropriate.
1.2 Se il caricamento della pagina web impiega più tempo del solito → potresti voler aumentare il timeout della pagina. Fai clic su "General" → "Timeout" per scegliere un tempo di pausa appropriato.
2. Fai clic sulla finestrina di impaginazione
Affinché l'impaginazione funzioni in modo coerente, ci sono due cose che dobbiamo controllare:
Se il pulsante o la freccia di Pagina successiva è individuato/a correttamente.
Se il processo di impaginazione funziona bene su tutte le pagine, ad esempio, è necessario impaginare correttamente andando dalla pagina 1 alla pagina 2, dalla pagina 2 alla pagina 3, dalla pagina 3 alla pagina 4, ecc.
Dopo aver fatto clic sulla finestrina di impaginazione, vai all'elemento evidenziato nella pagina web e conferma se è il pulsante Pagina successiva corretto. Se non hai posizionato il pulsante Pagina successiva corretto, potrebbe essere necessario risolverlo manualmente modificando l'XPath corrispondente.
3. Clicca su Click to Paginate
Quando fai clic su "Click to Paginate", stai letteralmente indicando a Octoparse di fare clic sul pulsante Pagina successiva definito nel passaggio 2. Se le cose funzionano correttamente, dovrebbe passare dalla pagina 1 alla pagina 2. Ripeti questo processo in due passaggi (fai clic sulla finestrina di "Pagination", quindi clicca su "Click to Paginate") tutte le volte necessarie per assicurarsi che l'impaginazione funzioni correttamente su tutte le pagine sequenziali. Se la pagina web non viene impaginata correttamente su qualsiasi pagina, correggi l'elemento XPath nel passaggio 2 e riprova.
Suggerimento: dai un'occhiata a queste idee per la risoluzione dei problemi di impaginazione: |
4. Fai clic sulla finestrina di Loop Item
Testare il Loop Item significa essenzialmente confermare se tutti gli elementi desiderati sono stati selezionati correttamente.
Dopo aver fatto clic, vai alla pagina web nel browser integrato e assicurati che tutti gli elementi necessari siano evidenziati.
Suggerimento: Se l'elenco non è completo durante il test, puoi consultare le idee per la risoluzione dei problemi di seguito: |
5. Clicca su Extract Data
Ecco il passaggio finale: controlla se i dati vengono estratti secondo i tuoi requisiti.
Una volta cliccato, controlla i dati nella sezione di anteprima e conferma se questi sono i dati di cui hai bisogno.
Suggerimento: Se trovi campi vuoti o dati fuori posto, puoi dare un'occhiata a queste idee per la risoluzione dei problemi: |
Eseguire una prova
Dopo aver eseguito ogni passaggio del flusso di lavoro dell'attività, è il momento perfetto per eseguire un test sul tuo dispositivo locale. Fai clic su "Run" (esegui) e seleziona "Run task on your device" (esegui attività sul tuo dispositivo).
Ora guarda i tuoi data mentre vengono estratti dal vivo!
Show Browser (mostra il browser): cliccaci per attivare il browser integrato e guardare i siti web da aprire.
Task Overview (panorama dell'attività): è possibile controllare l'orario d'inizio e della fine dell'attività in esecuzione.
Pause (pausa): si può interrompere il processo a bypassare il login o il captcha sulle pagine web.
Data List (elenco di dati): ti offre un'anteprima dei dati estratti.
Event Log (cronologia degli eventi): mostra ogni azione la quale Octoparse esegue durante il processo di estrazione. Si può trovare facilmente gli errori qui.
Domande frequenti: |
Continua a leggere >> Lezione 5: Acquisire i dati desiderati