Amazon ist eine der beliebtesten E-Commerce-Websites auf der ganzen Welt. Viele Benutzer versuchen, die Produktinformationen von Amazon zu scrapen. In diesem Tutorial zeigen wir Ihnen, wie Sie mit Octoparse Produktdaten von Amazon einfach scrapen können.

Sie können integrierte Aufgabenvorlagen im Hauptbildschirm des Octoparse-Scraping-Tools finden und direkt den gebrauchsfertigen Amazon-Vorlagen verwenden. Octoparse bietet mehrere Amazon-Vorlagen, die für verschiedene Länder wie Deutschland, Frankreich, die USA, Spanien und Indien entwickelt wurden. Mit dieser Funktion müssen Sie nicht selbst Scraping-Aufgaben konfigurieren. Für weitere Details können Sie hier nachsehen: Aufgaben-Vorlagen

Wenn Sie wissen möchten, wie Sie die Aufgabe von Grund auf neu erstellen können, lesen Sie bitte die folgende Anleitung oder sehen Sie sich das Video unten an.

Zum Üben können Sie diese URL im Tutorial verwenden:

https://www.amazon.com/s?rh=i%3Aelectronics%2Cn%3A172541%2Cp_n_feature_four_browse-bin%3A12097501011&ie=UTF8&lo=electronics

Hier sind die wichtigsten Schritte in diesem Lernprogramm. [Sie können hier die Aufgabendatei herunterladen ]

Schritt 1: "Go To Web Page" - Öffnen Sie die Ziel-Webseite

Geben Sie die Beispiel-URL ein und klicken Sie auf „Start“.

Schritt 2: Automatische Detektion der Webseite - Erstellen eines Workflows

Klicken Sie auf „Auto-detect web page data“ und warten Sie, bis die Detektion abgeschlossen ist.

Löschen Sie unerwünschte Felder und ändern Sie bei Bedarf Feldnamen in der Datenvorschau

Wählen Sie „Create workflow“ in „Tipps“

Eine Paginierung und ein Loop Item würden automatisch im Workflow erzeugt werden.

Wenn alle Daten, die Sie benötigen, schon gescrapt werden, können Sie hier aufhören und zu der Einstellung der AJAX-Wartezeit in "Klicken zum Paginieren" springen. Wenn Sie noch zu der Produkt-Detailseite gehen möchten, um detaillierte Informationen zu erhalten, folgen Sie bitte den unten stehenden Schritten.

Schritt 3: Klicken Sie in jeden Detail-Link, um weitere Informationen zu scrapen

Wählen Sie „Click on link(s) to scrape the linked page(s)“ in „Tipps“.
Wählen Sie „Title_URL“ aus der Dropdown-Option.
Klicken Sie auf „Confirm“.

Octoparse würde automatisch auf die erste Detailseite gehen.

Schritt 4: Daten extrahieren - Daten auf den Detailseiten extrahieren

Wählen Sie Informationen auf der Webseite aus.
Wählen Sie „Extract the text of the element“.
Wiederholen Sie die obigen Schritte, um alle Daten zu extrahieren, die Sie benötigen.

Schritt 5: AJAX-Wartezeit für „Klicken zum Paginieren“ einrichten

Öffnen Sie die Aktionseinstellungen von „Klicken zum Paginieren“.
Wählen Sie „Laden mit AJAX“ und stellen Sie 10s AJAX-Wartezeit ein.

Schritt 6: Extraktion ausführen - führen Sie Ihre Aufgabe aus und erhalten Sie die Daten

Klicken Sie auf „Speichern“.
Klicken Sie auf „Ausführen“.
Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie „Run in der Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).

Hier sind Daten für die Beispielaufgabe.

Verwandte Artikel

Scraping der Immobiliendaten von Realtor.com (V8.4)

Scraping der Leadsdaten von Yellowpages

Scraping der Suchergebnisse von Google Search

Scraping der Jobdetails von XING

Scraping der Produktdaten von Kleinanzeigen