Ist es nicht aufregend, dass Sie kurz davor sind, Ihre erste Scraping-Aufgabe zu erledigen? Es gibt nun nur noch eine sinnvolle Sache, die Sie tun sollten (oder besser tun sollten), bevor Sie Ihre Aufgabe ausführen - Testen Sie Ihren Workflow Schritt für Schritt, um sicherzustellen, dass die Scraping-Aufgabe genau so funktionieren wie erwartet. Mit dem Test können Sie überprüfen, ob Sie die Einstellungen Ihrer Aufgabe verändern müssen, um die Daten exakt zu extrahieren.
Um den Prozess zu demonstrieren, verwenden wir weiterhin die Testseite als Beispiel: http://demo.octoparse.de.
Workflow-Schritte testen
Es ist immer notwendig, dass man es im Kopf erhältet, dass die Schritte des Workflows stets vom Anfang bis Boden und von innerhalb bis außerhalb ausgelesen werden.
Deshalb für unser Beispiel, sollten wir zuerst die Schritte in dieser Ordnung überprüfen:
Zur Website → testen, ob die Webseite richtig geladen ist
Pagination → testen, ob der Button „Nächste Seite“ richtig gewählt ist
Zum Paginieren klicken → testen, ob die Webseite ordentlich paginiert
Schleifenelement → testen, ob die Liste der Elemente vollständig und korrekt ist
Daten extrahieren → testen, ob die Daten korrekt ausgewählt und extrahiert werden
Notiz:
Die meisten Arbeitsabläufe haben nur eine Paginierung. Wenn Sie in Ihrem Arbeitsablauf mehrere Paginierungen erstellt haben, sollten Sie diese am besten doppelt überprüfen und testen.
Wenn Sie eine Pagination löschen müssen, können Sie die Schritte innerhalb dieser Pagination herausziehen und sie löschen.
Es ist erwähnenswert, dass nicht alle Aufgaben gleich aussehen. Vielleicht haben Sie eine ganz andere Aufgabe zu testen, aber die Methodik ist immer verfügbar für alle Sorten. Fangen wir jetzt an!
Schritt 1: Klicken auf „Zur Website“
Sobald Sie auf den Button klicken, sollte die Webseite im integrierten Browser geladen sind. Wenn die Webseite gut geladen wird, müssen Sie sich darum nicht sorgen; es gibt jedoch ein paar Dinge, auf die Sie immer achten sollten.
1.1 Wenn die Webseite mit unendlichem Scrollen geladen ist → Sie sollten „Scrollen Sie die Seite nach unten, nachdem sie geladen wird.“ wählen und die entsprechenden Einstellungen vervollständigen.
1.2 Wenn die Webseite länger als üblich geladen ist → Sie könnten vielleicht den Timeout für die Seite erhöhen. Klicken Sie auf „Generell“→„Timeout“, um eine angepassende Pausezeit auszuwählen.
Schritt 2: Klicken Sie auf „Pagination“ Kasten
Um zu sichern, dass die Paginierung funktioniert, müssen wir zwei Sachen überprüfen.
Ob der Button/der Pfeil „Nächste Seite’“ richtig gewählt wird.
Ob den Prozess der Pagination auf allen Seiten gut funktioniert, d.h. es muss korrekt paginiert werden von Seite 1 zu Seite 2, Seite 2 zu Seite 3, Seite 3 zu Seite 4, usw.
Nachdem Sie auf das Kästchen „Pagination“ geklickt haben, gehen Sie zu dem Element mit Highlight auf der Webseite und überprüfen Sie, ob der Buttton „Nächste Seite“ richtig lokalisiert wurde. Wenn der richtige Buttton „Nächste Seite“ nicht gewählt würde, müssen Sie eventuell manuell bei der Anpassung des Element-XPath dies korrigieren.
Schritt 3: Klicken Sie auf „Zum Paginieren klicken“
Wenn Sie auf „Zum Paginieren klicken“ klicken, weisen Sie Octoparse an, auf den im Schritt 2 definierte Button „Nächste Seite’“ zu klicken. Wenn alles in Ordnung wäre, sollte es von Seite 1 zu Seite 2 gehen. Wiederholen Sie diesen zweistufigen Prozess (Klicken Sie auf das Kästchen „Pagination“ und dann auf „Zum Paginieren klicken“) so häufig wie nötig, um sicherzustellen, dass die Paginierung auf allen sequenziellen Seiten korrekt funktioniert. Wenn die Webseite auf einer der Seiten nicht richtig paginiert, Anpassung des Element-XPath in Schritt 2 und testen Sie noch einmal.
Tipps: Sehen Sie sich diese Tutorials zur Fehlerbehebung bei der Paginierung an:
Schritt 4: Klicken Sie auf das Kästchen „Schleifenelement“
Das Testen des „Schleifenelement“ ist im Wesentlichen eine Bestätigung, ob alle gewünschten Elemente korrekt ausgewählt wurden.
Nach dem Klicken gehen Sie im integrierten Browser auf die Webseite und stellen Sie sicher, dass alle gewünschten Elemente hervorgehoben werden.
Tipps: Wenn Ihre Liste beim Testen nicht vollständig wäre, können Sie sich die unten stehenden Ideen zur Fehlerbehebung ansehen:
Schritt 5: Klicken Sie auf „Daten extrahieren“
Hier ist der letzte Schritt - prüfen Sie, ob die Daten wie gewünscht extrahiert werden.
Prüfen Sie nach dem Klicken die Daten im Vorschaubereich und bestätigen Sie, ob dies die benötigten Daten sind.
Tipps: Wenn Sie leere Felder sehen oder falsch platzierte Daten finden, können Sie sich diese Tutorials ansehen:
Eine Test-Aufgabe ausführen
Nachdem Sie jeden Schritt im Aufgaben-Workflow überprüft haben, ist es der perfekte Zeitpunkt, eine Test-Aufgabe auf Ihrem lokalen Gerät auszuführen. Klicken Sie auf „Starten“ und wählen Sie dann „Auf Ihrem Gerät ausführen“.
Sehen Sie nun zu, wie Ihre Daten extrahiert werden!
Browser anzeigen: Klicken Sie darauf, um den integrierten Browser zu öffnen und den Scraping-Vorgang zu beobachten.
Aufgabenübersicht: Beobachten Sie die Startzeit und Endzeit von dem aktuellen Prozess.
Unterbrechen: Pausieren Sie den Prozess, um mit dem Login oder CAPTCHA der Websites umzugehen.
Datenliste: Sehen Sie die Datenzeilen, die gescrapt werden.
Logs: Zeigt jede Aktion an, die Octoparse während des Scrapings ausführt. Es bietet auch Optionen zum Hervorheben von Ressourcen- und Fehlerprotokollen.
Nur Ressourcen Logs: Überprüfen Sie, ob ein CAPTCHA erfolgreich gelöst wurde, und verfolgen Sie die Verwendung von Guthaben.
Error-Logs nur: Identifizieren Sie alle beim Scraping aufgetretenen Fehler.
Tipps!
Schauen Sie sich die FAQs unten an, um herauszufinden, warum Sie nicht die gewünschten Daten erhalten.
Jetzt wissen Sie schon, ob Ihre Aufgabe richtig funktioniert, ist es an der Zeit, wirklich Daten zu extrahieren! >> Lektion 5: Erhalten der Daten