Zum Hauptinhalt springen

Umgang mit AJAX

Vor über 3 Monaten aktualisiert

Viele Websites nutzen die AJAX-Technik, um bessere, schnellere und interaktivere Webseiten zu erstellen. Octoparse kann problemlos mit solchen Seiten umgehen. In diesem Artikel würde ich Ihnen zeigen, wie Sie AJAX in Octoparse einstellen können.


1. Was ist AJAX?

AJAX steht für „Asynchronous JavaScript and XML“, das es einer Webseite ermöglicht, Informationen zu aktualisieren, ohne die gesamte Seite neu zu laden, und Daten anzufordern oder zu empfangen, nachdem die Seite geladen wurde. Falls AJAX verwendet wird, wird nur ein Teil der Seite aktualisiert, wenn Sie auf die Schaltflächen wie „nächste Seite“ oder „mehr zeigen“ auf der Webseite klicken.


2. Woran erkenne ich, ob eine Website mit AJAX Inhalte lädt?

Wenn Sie zum Laden der Webdaten etwas angeklickt haben, ist es ziemlich einfach zu erkennen, ob die Webseite AJAX verwendet oder nicht. Wenn AJAX verwendet wird, lädt die Webseite den zusätzlichen Inhalt, ohne die Seite neu zu laden. Aus diesem Grund ist das Nachladen-Symbol ein guter Indikator, um zu erkennen, ob AJAX verwendet wird.

  • Wenn AJAX verwendet wird, sollte die Seite nicht neu geladen werden, wenn zusätzlicher Inhalt geladen wird. In diesem Fall sollte es also KEIN Nachladen-Symbol geben.

KEIN Nachladen-Symbol geben

  • Wenn AJAX nicht verwendet wird, sollte die Seite mit dem Klick auf das Symbol

    neu geladen werden, wenn Sie darauf klicken und mehr Information sehen möchten.

mehr Information sehen


3. Wie wird Website mit AJAX in Octoparse gescrapt?

Octoparse nutzt das Neuladen als Signal bei der Ausführung des angeklickten Elements. Wird die Seite nach dem Anklicken eines Elements neu geladen, führt sie nach dem Neuladen die nächste Aktion aus. Da Seiten mit AJAX jedoch nicht neu geladen werden, erhält Octoparse das Signal nicht und bleibt hängen. Daher müssen wir ein AJAX-Timeout für „Auf Element klicken" oder „Zum Paginieren klicken“ einrichten, um Octoparse anzuweisen, nach Erreichen des Timeouts mit der nächsten Aktion fortzufahren. Es gibt zwei Möglichkeiten, AJAX in Octoparse zu verwalten.

Automatische AJAX-Erkennung

Octoparse richtet automatisch ein AJAX-Timeout ein, wenn AJAX für die Seite erkannt wird.

Beispielsweise verwendet die Amazon-Website AJAX, um die nächste Seite zu laden. Wenn wir also auf die Schaltfläche „Weiter“ oder „Nächste Seite“ klicken, richtet Octoparse automatisch ein AJAX-Timeout für die Aktion ein.

Wenn Sie eine längere oder kürzere Auszeit benötigen, klicken Sie einfach auf das Dropdown-Menü und wählen Sie die gewünschte Option aus.

AJAX manuell einrichten

Wenn eine Aufgabe manuell erstellt wird oder Octoparse AJAX nicht erkennt, können Sie sie auch manuell einrichten, indem Sie auf das Feld Klick Item“ oder „Zum Paginieren klicken“ klicken. Die AJAX-Einstellungen finden Sie in den Optionen. Aktivieren Sie „Laden mit AJAX“, um das gewünschte Timeout auszuwählen.

HINWEIS: Das AJAX-Timeout sollte lang genug sein, damit die Seite die benötigten Informationen laden kann.


4. Verwendung von AJAX-Timeout für Websites ohne AJAX

Auch für Seiten, die kein AJAX verwenden, kann das AJAX-Timeout eingestellt werden, um längere Wartezeite von einigen Seiten zu verkürzen. Wenn Sie beispielsweise eine Seite haben, die ewig lädt, auch wenn die benötigten Informationen schon geladen wurden, könnten Sie vielleicht AJAX-Timeout einstellen, damit Sie Octoparse mitteilen, dass es zur nächsten Seite gehen sollte, anstatt es immer darauf warten, bis die Seite komplett geladen ist.

Hat dies deine Frage beantwortet?