Manchmal möchten wir nicht nur die Daten der Listeseite, sondern auch sie auf der Detailseiten scrapen. Für einige Websites gibt es meistens diese Szenario, auf jeden Link in der Liste zu klicken und die Daten aus einer neuen Seite zu scrapen. Dieses Tutorial wird Ihnen anzeigen, wie man zur Detailseite auf jeden Link klickt, um die detaillierten Daten zu scrapen.

Wenn Sie aus Websites des E-Commerce oder Unternehmensverzeichnisse, wie Amazon oder Gelbe Seiten, die Daten scrapen möchten, würde dieses Tutorial besonders hilfreich.

Sie brauchen vielleicht einen Link zu probieren:

https://www.ebay.de/sch/i.html?_from=R40&_trksid=m570.l1313&_nkw=weihnachten+kerzen&_sacat=0

Methode 1: Automatische Erstellung des Workflows mit Hilfe von Automatischer Erfassungsfunktion

Schritt 1: Sobald Sie bei der Verwendung vom Beispiel-URL eine neue Aufgabe erstellt haben, wählen Sie „Daten der Webseite automatisch detektieren“. Octoparse würde nun beliebige Daten auf der Seite erkennen. Dann können Sie auf „Workflow erstellen“ klicken, um einen Workflow zu generieren.

Schritt 2: Wählen Sie „Unterseite-URL auswählen“ in der Tipps-Platte.

Danach selektieren Sie eine Option aus dem Dropdown Menü. Hier können Sie „sitem_link_Link“ unter „Ein gescraptes Datenfeld anklicken“ wählen.

Octoparse würde jetzt Sie zur Detailseite des ersten Produktes führen.

Schritt 3: Verwenden Sie die automatische Erfassungsfunktion wieder, um die Daten der Seite zu scrapen. Oder wählen Sie manuell Zieldatenfelder, z. B. Titel, Artikelzustand, Preis usw.
Dann selektieren Sie „Text“ unter „Daten extrahieren“-Teil zur Auswahl dieser Elemente.

Methode 2: Manuelle Erstellung des Workflows

Schritt 1: Klicken Sie auf den Titel des ersten Items, der die Seite-URL des Produktes enthält. Der selektierte Titel ist grün hervorgehoben, während alle ähnlichen Items rot hervorgehoben sind.

Schritt 2: Bitte passen Sie das Element manuell an den A-Tag an, um einen Link richtig zu lokalisieren. Damit kann Octoparse dann auf jeden Link klicken und Daten scrapen.

Klicken Sie auf „Alle ähnlichen Elemente wählen“ in der Tipps-Platte, um eine Schleife mit allen Links einzurichten.

Notiz: Wenn es keine Option „Alle ähnlichen Elemente wählen“ unter Tipps gibt, nachdem Sie die erste URL wählen, gehen Sie bitte weiter, um die zweite oder die dritte URL zu selektieren.

Schritt 3: Wählen Sie „Schleife auf jedes Element klicken“ aus der Tipps-Panel.

Wenn Sie das Pop-Up erhalten, klicken Sie bitte „Nein“ an. Jetzt wird eine Schleife automatisch erstellt, was zu jeden Detail-Link führt.

Notiz: Um alle Links in der Liste durchzuklicken, ist es wichtig, dass Sie das Ankerelement richtig auswählen. Octoparse identifiziert automatisch die Tags der ausgewählten Elemente. Wenn Sie also ein Element mit URL auswählen, wäre das ausgewählte „A“-Tag, das für einen Anker steht, der normalerweise eine Seite mit einer anderen verbindet.

Wenn Sie feststellen, dass Octoparse das A-Tag nicht findet, können Sie auf das „A“ in der Tipps-Platte klicken.

Schritt 4: Klicken Sie auf die Ziel-Datenfelder, um die Information wie Titel, Preis usw. zu scrapen.

Notiz: Es ist ganz bedeutend, Wartezeit und AJAX unter Optionen für „Klick Item“ oder „Data Extrahieren“ einzubauen, um das Überspringen von Daten effektiv zu vermeiden und den Crawling-Prozess wie menschlisches Verhalten aussehen zu lassen. Normalerweise würden 2-5s für Wartezeit und 5-7s AJAX viel besser. Dann klicken Sie auf „Anwenden“ zu bestätigen.

Verwandte Artikel

Datenerfassung aus neuen Seiten nach Klick auf jeden Link einer Liste

Methode 1: Automatische Erstellung des Workflows mit Hilfe von Automatischer Erfassungsfunktion

Methode 2: Manuelle Erstellung des Workflows