Das Scraping von Daten aus einer Suchmaschine ist eine gute Möglichkeit, Informationen zu einem Thema zu sammeln. In diesem Tutorial zeigen wir Ihnen, wie Sie die Suchergebnisse der Google-Suche scrapen.
Sie können viele Aufgabenvorlagen im Hauptbildschirm des Octoparse Scraping-Tools finden und direkt mit der vorgefertigten Google-Suchvorlage beginnen, um Ihre Zeit zu sparen. Mit dieser Funktion müssen Sie keine Scraping-Aufgaben konfigurieren. Für weitere Details können Sie hier nachlesen: Aufgaben-Vorlagen
Wenn Sie mit unserer benutzerdefinierten Aufgabe Ihre eigene Aufgabe erstellen möchten, können Sie sich dieses Tutorial als Referenz ansehen. Wir extrahieren mit Octoparse Daten wie Titel, URL und Beschreibung von der Suchergebnisseite.
1. Öffnen Sie die Ziel-Webseite
Geben Sie die URL auf der Startseite ein und klicken Sie auf „Starten“.
2. Text eingeben - um die Suche zu starten
Geben Sie die Schlüsselwörter, nach denen Sie suchen möchten, in Textfeld 1 ein
Im Workflow wird ein Eingabetext erstellt:
Wenn Sie nach einer Liste von Schlüsselwörtern suchen möchten, wählen Sie Text eingeben in der Schleife
Im Workflow wird ein Loop-Element mit einem darin enthaltenen Eingabetext erstellt:
Um einen Klick hinzuzufügen, können Sie ihn unter der Aktion Text eingeben festlegen
Klicken Sie auf Optionen
Aktivieren Sie das Kontrollkästchen. Drücken Sie die Eingabetaste, wenn Sie mit der Eingabe fertig sind.
Klicken Sie auf „Übernehmen“.
3. Erstellen Sie ein Schleifenelement- Scrapen Sie Daten aus der Ergebnisliste
Klicken Sie auf den ersten Ergebnistitel
Klicken Sie so lange auf die Schaltfläche „Die Auswahl erweitern“, bis der erste Ergebnisblock ausgewählt ist
Machen Sie dasselbe, um das zweite Ergebnis auszuwählen
Text auswählen
Wählen Sie die zu scrapenden Felder aus
Um die Titel-URL zu scrapen, klicken Sie auf den Titel und wählen Sie das A-Tag
Löschen Sie die Felder, die Sie nicht möchten
4. Erstellen Sie eine Paginierung – Scrapen Sie von mehreren Seiten
Klicken Sie auf die Schaltfläche „Nächste Seite“
Wählen Sie „Schleife Klicken Sie auf die nächste Seite“, klicken Sie auf „Nächste Seite“.
5. Wartezeit einrichten - um die Scraping-Geschwindigkeit zu verlangsamen
Die Google-Suche wendet eine Anti-Scraping-Technik an und zeigt reCAPTCHA zur Lösung an. Wir müssen das Scraping verlangsamen, indem wir die Wartezeit festlegen.
Klicken Sie auf die Aktion „Daten extrahieren“
Optionen auswählen
Aktivieren Sie „Warten vor der Aktion“.
Wählen Sie die Wartezeit zwischen 1 und 3 Sekunden und klicken Sie zur Bestätigung auf „Übernehmen “.
6. Führen Sie die Aufgabe aus, um Ihre Zieldaten zu erhalten
Klicken Sie auf Speichern
Klicken Sie oben rechts auf „Starten“ .
Wählen Sie einen Laufmodus entweder auf Ihrem Gerät oder in der Cloud (nur für Premium-Benutzer)
Hier ist die Beispielausgabe.
Tips: Während des Erfassungsprozesses werden Sie auf das CAPTCHA stoßen. Wenn Sie die Lösung wissen möchten, lesen Sie bitte dieses Tutorial