Alle Kollektionen
Octoparse Performance
Erweiterte Einstellung
Extraktion von Eingabe einer Stapel URLs
Extraktion von Eingabe einer Stapel URLs
Vor über einer Woche aktualisiert

1. Was ist Eingabe einer Stapel URLs

Die Stapel-URL-Eingabefunktion importiert eine große Anzahl von URLs in Octoparse. Octoparse unterstützt den Batch-Import von URLs aus lokalen Dateien (Text oder Tabellenkalkulation), aus einer anderen Aufgabe oder generiert die URLs sogar auf der Grundlage eines vordefinierten Musters.


2. Wie kann man eine Stapel URLs eingeben?

Klicken Sie auf „+ Neu“, um eine neue Aufgabe zu schaffen. Dann selektieren Sie „Benutzerdefinierte Aufgabe“ und würden Sie die URLs ansehen, die in die Platte importiert werden.

Es gibt drei Möglichkeiten, mehrere URLs in eine einzelne Aufgabe/einen Crawler zu importieren (bis zu einer Million URLs):

  • Methode 1: Import der URLs aus einer Datei

  • Methode 2: Import der URLs aus einer anderen Aufgabe

  • Methode 3: Generieren der URLs auf der Grundlage eines vordefinierten Musters

Notiz: Sobald die Anzahl der importierten/generierten URLs die Grenze von 1 Million erreicht, wird Octoparse den Import/die Generierung sofort stoppen.


Methode 1: Import der URLs aus einer Datei

Sie können die URLs aus beliebigem folgenden Dateiformat importieren: CSV / TXT / Excel (.xlsx & .xls)

  • Schritt 1: Wählen Sie „Aus Datei importieren“.

  • Schritt 2: Klicken Sie auf „Browsen“ und dann wählen Sie die Akte aus, welche die URLs enthält. Danach selektieren Sie die Platten und Spalten, welche die URLs enthalten.

  • Schritt 3: Klicken Sie auf „Speichern“, um den Prozess des Imports zu erledigen.

NOTIZ

  1. Es werden nur die ersten 100 URLs in der Vorschau angezeigt.

  2. Während des Importes aus eine CSV-Datei stellen Sie sicher, dass die Datei nur eine Spalte mit den URLs hat. Wenn die Datei ein paar Spalten hat, werden die URLs nicht importiert und als ungültige URLs anerkannt.


Methode 2: Import der URLs aus einer anderen Aufgabe

Diese Funktion ermöglicht es, zwei Aufgaben nahtlos zu integrieren, wenn die URL-Extraktion separat mit einer anderen Aufgabe durchgeführt werden muss. Kein manueller URL-Export und -Import ist darin nicht mehr erforderlich.

  • Schritt 1: Wählen Sie „Aus Aufgabe importieren“.

  • Schritt 2: Wählen Sie die Aufgabe, die Ihre Ziel-URLs enthalten, und dann bestimmen Sie die geeigneten Datenfelder.

  • Schritt 3: Klicken Sie auf „Speichern“, um den Prozess des Imports zu erledigen.

Beachten Sie, dass die ausgewählte Aufgabe (diejenige, welche die für das weitere Crawling benötigten URLs enthält) als übergeordnete Aufgabe bezeichnet wird und die neue Aufgabe, die mit den URLs konfiguriert werden soll, zur untergeordneten Aufgabe wird. Die beiden Aufgaben werden automatisch miteinander verknüpft und können gemeinsam ausgeführt werden.

TIPPS

1. Sie können festlegen, dass die untergeordnete Aufgabe entsprechend dem Status der übergeordneten Aufgabe in der Cloud ausgeführt wird. Wenn Sie eine verbundene Ausführung einrichten, indem Sie eine Option in den Einstellungen der übergeordneten Aufgabe auswählen, werden beide Aufgaben in der Cloud ausgeführt. Für verknüpfte Ausführung ist die lokale Extraktion nicht verfügbar. (Nur für den Modus „Aus Aufgabe importieren“ gibt es diese Funktion)

2. Wenn eine verknüpfte Ausführung eingerichtet ist, ist die Aufgabenplanung für die Ausführung der untergeordneten Aufgabe nicht verfügbar.

3. Es unterstützt mehr als 1 Million URLs, die URLs aus einer anderen Aufgabe zu importieren.


Methode 3: Generieren der URLs auf der Grundlage eines vordefinierten Musters

Mit der Funktion „Batch-generieren“ können Sie problemlos eine große Anzahl von URLs nach bestimmten Mustern generieren, indem Sie verschiedene Parameter einer angegebenen URL ändern.

  • Schritt 1: Wählen Sie „Batch-generieren“.

  • Schritt 2: Geben Sie eine URL als die Grundlage für die Generierung ein.

  • Schritt 3: Makieren Sie den ausgewählten Parameter der URL und klicken Sie auf „Parameter hinzufügen“.

  • Schirtt 4: Wählen Sie aus den vier Parametertyp-Optionen, um das gewünschte Muster zu definieren und klicken Sie auf „Bestätigen“, um die Liste zu speichern.

Vier Parametertyp-Optionen

  • Typ 1: Numbers

Sie können die ursprüngliche Nummer eingeben und jedes Mal die Zunahme(+) oder Abnahme(-) einer Nummer auswählen. Gleichzeitig können Sie „Wiederholen“ oder „Endwert“ eingeben. Zum Beispiel möchten Sie vielleicht die Parameter einer Seite von 1 bis 100 einstellen, wenn Sie die URLs für unterschiedliche Seiten generieren wollen. Sie sollen „1“ in „Anfangswert“, „+1“ in „Alle“ und „100“ in „Wiederholen“ eingeben. Dann würde 100 in „Endwert“ automatisch eingegeben werden.

  • Typ 2: Letter

Sie können den Anfangsbuchstabe und den Endesbuchstabe eingeben.

  • Typ 3: Zeit

  • Typ 4: Benutzerdefinierte Liste

Sie können Ihre eigene Liste eingeben, wie eine Liste von den Schlüsselwörter der Suche oder Produktnummern.

NOTIZ: Sie können mehrere Parameter festlegen, um URLs zu generieren. Wenn die Basis-URL zum Beispiel www.XXX.com/[parameter1]/[parameter2] lautet:

Parameter1={A, B}, Parameter2={1, 2}

Die endgültige URL-Liste würde wie folgt aussehen:

Hat dies Ihre Frage beantwortet?