Vai al contenuto principale

Elementi in loop

Aggiornato oltre 12 mesi fa

Quando costruisci un'attività di scraping in Octoparse, quasi sicuramente utilizzerai un'azione Elementi in loop durante il processo. Un'azione Elemento in loop viene spesso utilizzata per acquisire un elenco di elementi o per sfogliare le diverse pagine di un sito web. Questo articolo ti spiegherà esattamente come funziona un'azione Elemento in loop in Octoparse.


1. Cos'è un'azione di Elementi in loop

Un loop è una funzione di programmazione che ripete un'istruzione continuamente fino al raggiungimento di una determinata condizione. L'azione Elementi in loop in Octoparse è simile a un loop. Un'azione di Elementi in loop viene solitamente creata utilizzando diversi URL/elementi e verranno aggiunte azioni all'elemento del loop. Una volta creata l'azione, Octoparse ripeterà i passaggi in loop per un numero X di volte designato o fino a quando non sarà più possibile continuare a ripeterli, ad esempio, quando non c'è più la pagina successiva da sfogliare (quando hai raggiunto il punto ultima pagina).

Diamo un'occhiata a un esempio. Supponiamo di avere un elenco di URL da cui estrarre i dati. Per prima cosa creeremo un'azione Elementi in loop utilizzando l'elenco degli URL, quindi inseriremo un'azione Vai alla pagina web e un'azione Estrai dati all'interno dell'azione Elementi in loop. Il flusso di lavoro sarebbe simile al seguente:

Questo flusso di lavoro si traduce in una serie di istruzioni che dicono a Octoparse di prendere il primo URL dell'elenco di URL, caricare la pagina con l'azione Vai alla pagina web, quindi estrarre i dati con l'azione Estrai dati. La stessa serie di passaggi verranno ripetuti per tutti gli URL nell'elenco finché non verrà preso l'ultimo URL, quindi il ciclo si interromperà.


2. Impostazioni degli Elementi in loop

Se fai clic sugli elementi in loop e selezioni Generale, verrai indirizzato al pannello delle impostazioni. Vediamo quali sono le opzioni disponibili.

  • Nome dell'azione: questo è il luogo in cui puoi modificare il nome dell'azione Elementi in loop specifica. Assegnare un nome univoco a un'azione Elementi in loop può aiutarti a risolvere le cose quando hai costruito diverse azioni di Elementi in loop nel tuo flusso di lavoro.

  • Modalità di loop: è fondamentale che sia selezionata la modalità di loop giusta affinché un'azione di Elementi in loop funzioni correttamente. Esistono sei modalità di loop e ciascuna di esse è ben spiegata nella sezione seguente.

  • Esci dal loop: oltre a far uscire automaticamente il ciclo, puoi anche terminarlo prematuramente designando il numero di volte in cui ripetere le azioni in loop.

  • Attendi prima dell'azione: puoi utilizzare questa funzione per impostare un tempo di attesa tra ogni ripetizione.


3. Le 6 modalità di loop e come usarle

Sono disponibili 6 modalità di loop: l'Elemento singolo, l'Elenco delle variabili, l'Elenco fisso, l'Elenco di URL, l'Elenco di testo e lo Scorrimento di pagina.

  • L'Elemento singolo viene utilizzato per individuare un elemento specifico sulla pagina. Octoparse eseguirà le azioni in loop sullo stesso elemento più e più volte finché l'elemento non verrà più trovato nella pagina. Un uso comune per un singolo elemento è quando vuoi che Octoparse faccia clic ripetutamente sul tasto di Avanti fino a raggiungere l'ultima pagina (non esiste più un bottone per la pagina successiva).

  • L'Elenco variabile viene utilizzato per individuare un elenco di elementi che possono essere abbinati a una singola query XPath. Octoparse eseguirà le azioni in loop per abbinare gli elementi uno per uno fino al raggiungimento dell'ultimo elemento. Un elenco di variabili dovrebbe essere utilizzato quando il numero di elementi che desideri scorrere non è coerente tra le diverse pagine.

  • Anche l'Elenco fisso, simile all'Elenco delle variabili, individua un elenco di elementi, ma L'Elenco fisso è un elenco di query XPath in cui ciascun XPath individua un elemento univoco sulla pagina. Viene utilizzato quando il numero di elementi sulla pagina è coerente su tutte le pagine.

  • L'Elenco di URL viene utilizzato per scorrere un elenco di URL, nel qual caso Octoparse aprirà gli URL uno per uno. Esistono tre modi per inserire gli URL. Scopri i diversi modi per inserire l'URL qui.

  • L'Elenco di testo è un elenco di stringhe di testo. Quando viene utilizzato un elenco di testo, Octoparse inserisce le stringhe nella pagina una per una.

  • Lo Scorrimento di pagina è un nuovo modo di scorrere. Questa modalità è particolarmente progettata per i siti web che utilizzano lo scorrimento infinito per visualizzare più contenuti. L'opzione può aiutare a raschiare i dati durante lo scorrimento invece di raccoglierli al termine dello scorrimento.

SUGGERIMENTI:

  • Quando si utilizzano l'Elenco fisso, l'Elenco di URL e l'Elenco di testo, l'attività può essere ulteriormente suddivisa in sottoattività che possono essere eseguite contemporaneamente nel Cloud per un'acquisizione dei dati più rapida.

  • L'Elenco delle variabili può essere modificato in Elenco fisso per estrazioni più rapide.


4. Come creare un'azione di Elementi in loop

Il tipo di elementi in loop di cui hai bisogno dipende dai dati che stai tentando di raccogliere e dalla struttura specifica della pagina web. Dai un'occhiata ai tutorial qui sotto su come creare un elemento loop per vari casi d'uso.

Nella maggior parte dei casi, quando si crea un flusso di lavoro, non è necessario prestare molta attenzione a quale modalità di loop utilizzare. Octoparse selezionerà automaticamente la modalità corretta in base alle selezioni effettuate.


5. Risoluzione dei problemi sull'azione Elementi in loop

Esistono molti problemi relativi all'azione di elementi in loop, come elementi mancanti, pagine saltate e così via. I problemi più frequenti relativi all'azione sono elencati di seguito:

5.1 Impaginazione:

  • Perché Octoparse salta le pagine durante lo scraping?

  • Cosa fare se Octoparse cancella per sempre l'ultima pagina?

5.2 Elementi mancanti:

5.3 Altro:


Hai ricevuto la risposta alla tua domanda?