Um die Analyse einzurichten, öffnen Sie die Projekteinstellungen und navigieren Sie zu Erweiterte Analyse.

1. Wie analysierst Du

1.1 Wie viele URLs sollten analysiert werden?

Definieren Sie, wie viele URLs in diesem Projekt gecrawlt werden sollen. Wenn Sie mehr Projekte haben, können Sie die URL-Kapazität Ihren Projekten zuweisen. Um das Gesamt-URL-Limit des Kontos und seine Verwendung nachzuschlagen, sehen Sie sich die Kontoeinstellungen unter Pakete an.

1.2 Wie schnell soll die Analyse erfolgen?

Um die Geschwindigkeit des Crawlens durch die Erhöhung der parallelen Anfragen zu erhöhen, müssen Sie Ihre Seite zuerst überprüfen. Um Ihre Seite zu verifizieren, öffnen Sie die Projekteinstellungen und laden Sie die Authentifizierungsdatei herunter. Laden Sie dann die Datei in Ihren Stammordner hoch und klicken Sie auf Authentifizierung überprüfen

Sobald Ihre Seite verifiziert ist, können Sie den parallelen Antrag auf bis zu 100 erhöhen. Bitte beachten Sie, dass dies mehr Server-Ressourcen erfordert!

1.3 Cookies akzeptieren

Aktivieren Sie diese Funktion, wenn Ihre Website Cookies benötigt, um richtig zu funktionieren. Standardmäßig ist diese Option deaktiviert, um Probleme zu identifizieren, die durch die Ablehnung von Cookies verursacht werden, wie z.B. Session-ID-Bugs oder Cloaking. Browser akzeptieren normalerweise Cookies, Suchmaschinen-Crawler normalerweise nicht.

1.4 Anmeldedaten

Ihre Website ist im Aufbau und mit einem Passwort geschützt? Das ist kein Problem, Sie können Ihre .htaccess-Authentifizierungsdaten in den Projekteinstellungen hinzufügen:

Sobald Sie die Anmeldedaten eingegeben haben, können Sie unter Testeinstellungen einen Test durchführen, um zu überprüfen, ob der Crawler auf Ihre Domain zugreifen kann. Jetzt können Sie loslegen.

1.5 URL-Normalisierung

Mit Hilfe der URL-Normalisierung normalisieren wir URLs so, wie es Suchmaschinen tun würden. Wenn Sie diese Option deaktivieren, sehen Sie URLs genau so, wie sie in Ihrem Quelltext stehen. Beispiele:

www.domain.com:80 => www.domain.com

www.dOmAi.cOM:80 => www.domain.com

HTTP://www.domain.com => http://www.domain.com

hTtpS://www.domain.com:443 => https://www.domain.com

www.domain.com/test//file.php => www.domain.com/test/file.php

1.6 Verhalten von Robots.txt

Robots.txt-Verhaltensoptionen:

Alles durchsuchen, außer Statistiken auf der Grundlage der Datei robots.txt zu erstellen

Nur Seiten crawlen, die nicht von robots.txt blockiert werden

Alles durchsuchen, aber Disallow-Statistiken auf der Grundlage der benutzerdefinierten robots.txt erstellen

Nur Seiten crawlen, die nicht von Ihrer benutzerdefinierten robots.txt blockiert werden

Sie können bei Bedarf eine benutzerdefinierte robots.txt eingeben.

1.7 Analyse Land

Die Option "Crawler-Land" ändert den Serverstandort, von dem aus der Crawler die Analyse durchführt.

1.8 Analyse Benutzer-Agent

Die Option user-agent bestimmt den Namen des Crawlers, Sie können z.B. Firefox als User-Agent eingeben. Oder wenn Sie sichergehen wollen, dass Sie nur auf der Whitelist stehen oder unseren Service verfolgen, können Sie dem Crawler einen individuellen Namen geben (z.B.:crawler123abc)

1.9 Zusätzlicher Anfrage-Kopf

Definieren Sie ggf. zusätzliche Anforderungsköpfe.

2. Was zu analysieren ist

2.1 Homepage-URL

Die Homepage-URL definiert, was RYTE als Startseite Ihrer Domain verwendet und gibt dem Crawler einen Startpunkt. Falls Ihre Homepage nicht indizierbar ist, schauen Sie bitte hier nach.

2.2 Unterordner analysieren

Mit diesen Einstellungen enthält Ihr Crawling nur alle Daten aus einem bestimmten Unterordner ( z.B. "/wiki/")

2.3 Bilder analysieren

Wollen Sie Bilder crawlen? Wenn Sie diese Funktion deaktivieren, werden einige Berichte nicht erstellt - aber Sie haben mehr Ressourcen für das Crawlen von HTML-Dokumenten.

2.4 Unterdomänen analysieren

Analysieren Sie alle gefundenen Unterdomänen und zeigen Sie sie als Teil der Hauptdomäne in Berichten an. Wenn Sie diese Funktion deaktivieren, werden sie als "externe Links" behandelt.

2.5 Sitemap.xml analysieren

Analysieren Sie Ihre sitemap.xml auf Fehler und Optimierungspotenzial. Wenn Sie viele sitemap.xml-Dateien (20+) verwenden, könnten Sie diese Funktion deaktivieren, um das gesamte Crawling zu beschleunigen.

2.6 Sitemap-URLs

Standardmäßig sucht unser Crawler nach der sitemap.xml im Root-Ordner (domain.com/sitemap.xml). Wenn Ihre Sitemap sich an einem anderen Ort befindet oder einen anderen Namen hat, können Sie ihre URL zu den Einstellungen hinzufügen, damit der Crawler ihr folgt.

Sie finden diese Option in den Projekteinstellungen -> Erweiterter Crawler

Sie können so viele Sitemaps wie nötig hinzufügen (eine pro Zeile).

YOAST-Benutzer:

Wenn Ihre sitemap_index.xml nicht korrekt erkannt wird, fügen Sie bitte jede Sitemap-URL aus dem Index hinzu.

(z.B.: .../Seiten-Sitemap.xml)

2.7 GET-Parameter sortieren

Sortieren Sie Parameter in URLs alphabetisch, dies kann eine Anzahl doppelter Inhalte reduzieren.

2.8 GET-Parameter ignorieren

Definieren Sie hier GET-Parameter, die automatisch aus den URLs auf Ihrer Website entfernt werden. Dies ist nützlich, um unnötige URL-Abweichungen von Session-IDs oder Tracking-Parametern zu vermeiden. Nachteil: Probleme wie doppelter Inhalt werden möglicherweise nicht entdeckt.

3. URLs ignorieren/einschließen

3.1 URLs ausschließen (schwarze Liste)

Sie können URLs von Ihrem Crawling ausschließen, indem Sie Regeln für die Sperrliste hinzufügen. In diesem Beispiel wollen wir das Magazin und unser Wiki ausschließen, das realisieren wir, indem wir die "Unterordner" auf eine schwarze Liste setzen. Die Regeln sollten wie folgt aussehen:

regex:/wiki/

Diese Regel schließt alle URLs aus, die /wiki/ enthalten. Bitte beachten Sie, dass dabei die Ordnerhierarchie nicht berücksichtigt wird. Zum Beispiel wird eine URL domain.com/wiki/ ebenso ausgeschlossen wie domain.com/subfolder/wiki/

Sie können jede Regel in beliebiger Tiefe anwenden, wenn Sie wünschen, dass z.B. bestimmte Sites ausgeschlossen werden sollen:

regex:https://en.ryte.com/magazine/onpage-becomes-ryte

Sie können so viele Regeln hinzufügen, wie Sie möchten.

3.2 URLs einbeziehen (Whitelist)

Die weiße Liste hat die gleichen Funktionen wie die schwarze Liste, funktioniert aber in umgekehrter Richtung. Wenn Sie Regeln durch "nur einbeziehen" anwenden müssen, können Sie unsere Whitelist-Funktion verwenden.

In diesem Beispiel wollen wir NUR unser Magazin und Wiki crawlen. Das erkennen wir, indem wir jeden "Unterordner" auf die Whitelist setzen:

regex:/wiki/

regex:/zeitschrift/

Bitte beachten Sie, dass dadurch auch domain.com/subfolder/wiki/ auf die Whitelist gesetzt wird, möglicherweise müssen Sie dies in der Tiefe anpassen (regex:https://en.ryte.com/wiki/)

3.3 Test Blacklist/Whitelist-Einstellungen

Es kann sehr zeitaufwendig sein, wenn Sie Ihre Regeln ohne Tests ausführen, nur um zu sehen, dass sie nicht funktionieren, wenn das Crawling beendet ist. Bitte testen Sie zuerst Ihre Einstellungen, um sich mit der Syntax vertraut zu machen.

Hier testen wir mit unseren Whitelist-Regeln von oben, so dass nur URLs entweder aus dem Wiki oder aus dem Magazin gecrawlt werden sollten.

Wenn wir eine URL eingeben, die ausgeschlossen werden soll, und der Antwortstatus 9xx ist (in diesem Beispiel 950), sind unsere Einstellungen in Ordnung, wenn der Status immer noch 200 ist, dann haben die Regeln nicht funktioniert.

Wir können auch in der umgekehrten Richtung testen, indem wir den eingeschlossenen Inhalt durch Eingabe einer URL innerhalb der Whitelist-Regeln crawlen:

Wenn wir die Regeln erfolgreich angewendet haben, dann antwortet der Test mit einem Status von 200, dies macht nur Sinn, wenn wir zuerst ausgeschlossene URLs getestet haben!

Testeinstellungen Statuscodes:

200 - OK

950 - blockiert durch Whitelist

951 - durch schwarze Liste blockiert

Wichtig: Wenn Ihr Test nicht erfolgreich war und Sie ihn mit der gleichen Test-URL erneut ausführen, wird er möglicherweise im Cache gespeichert. Geben Sie daher bitte bei jedem Test eine andere URL ein, um keine Diskrepanz im Cache zu haben.

4. Allgemeine Einstellungen

In den Allgemeinen Einstellungen können Sie den Projektnamen und den Slug ändern.

Projekt-Name

Der Name Ihres Projekts, wie es in Ihrem Ryte-Konto angezeigt wird. (Standard: Domäne)

SLUG

Dies ist die Kurznotation Ihres Projekts und wie es innerhalb der URL angezeigt wird.ACHTUNG: Die Projektdomäne bleibt davon unberührt. Dadurch wird nur die Anzeige-URL des Projekts geändert. Diese Funktion ist wichtig, wenn Sie dieselbe Domäne mehrmals in Ihrem Ryte-Konto analysieren.

War diese Antwort hilfreich für dich?