Übersicht:

1. Wie analysiert wird
2. Was analysiert wird
3. URLs ein- oder ausschließen
- 3.1 URLs ausschließen (Blacklist)
- 3.2 URLs einschließen (Whitelist)
4. Generelle Einstellungen

Um Deine Analyse zu personalisieren, öffne die Projekteinstellungen und wechsle zum Reiter Erweiterte Analyse.

1. Wie analysiert wird

1.1 Wieviele URLs sollten analysiert werden?

Hier kannst Du festlegen, wie viele URLs in diesem Projekt gecrawlt werden sollen. Wenn Du mehr Projekte hast, kannst Du die URL-Kapazität Deinen Projekten zuweisen.

Um das Gesamt-URL-Limit Deines Ryte-Kontos und seine Aufteilung nachzuschlagen und anzupassen, wirf gerne einen Blick auf Deine Projektübersicht in den Kontoeinstellungen.

1.2 Wie schnell soll die Analyse durchlaufen?

Du kannst Deine Analysegeschwindigkeit für ein Projekt festlegen, indem Du die Anzahl der parallelen Requests einstellst (von 1 bis 10).

Um die Analysegeschwindigkeit durch die Erhöhung der parallelen Requests weiter zu erhöhen, musst Du Deine Seite zuerst verifizieren. Lade hierfür die Authentifizierungsdatei herunter. Lade anschließend die Datei in Deinem Hauptverzeichnis hoch und klicke auf Authentifizierung prüfen.

Sobald Deine Seite verifiziert ist, kannst Du die Anzahl der parallelen Requests auf bis zu 100 erhöhen. Bitte beachte aber, dass dies mehr Server-Ressourcen erfordert!

1.3 Login Daten

Deine Website ist im Aufbau und mit einem Passwort geschützt? Das ist kein Problem, Du kannst Deine .htaccess-Authentifizierungsdaten in den Projekteinstellungen hinzufügen:

Sobald Du die Login Daten eingegeben hast, kannst Du unter dem Reiter Testen überprüfen, ob der Crawler auf Deine Domain zugreifen kann. Jetzt kannst Du loslegen.

1.4 Robots.txt Handhabung

Robots.txt-Verhaltensoptionen:

1.5 Analyse User-Agent

Der User-Agent bestimmt den Namen des Crawlers. Du kannst zwischen dem RyteBot oder dem Googlebot als User-Agent auswählen, wobei der RyteBot der Standard User-Agent ist. Wenn Du aber sicherstellen willst, dass ausschließlich unsere Dienste gewhitelisted oder getracked werden, kannst Du dem Crawler einen individuellen Namen geben (z.B.:crawler123abc)

2. Was analysiert wird

2.1 Startseiten URL

Die Startseiten URL definiert, was RYTE als Startseite Deiner Domain verwendet und gibt dem Crawler einen Startpunkt. Falls Deine Homepage nicht indexierbar ist, listet dieser Artikel mögliche Gründe dafür auf.

2.2 Unterverzeichnis analysieren

Wenn Du nur ein bestimmtes Unterverzeichnis analysieren möchtest, trage hier den Pfad relativ zum Root Order ein z.B. /wiki/. Achtung: Je nach URL-Struktur Deiner Unterverzeichnisses kann es sein, dass Du den Trailing-Slash weglassen musst.

2.3 Subdomains analysieren

Analysiere alle gefundenen Subdomains und zeige sie als Teil der Hauptdomain in Berichten an. Wird die Funktion deaktiviert, werden Subdomains als "externe Links" behandelt.

2.4 Sitemap.xml analysieren

Analysieren Deine sitemap.xml auf Fehler und Optimierungspotenzial. Wenn Du viele sitemap.xml-Dateien (20+) verwendest, könntest Du diese Funktion deaktivieren, um den gesamten Crawl zu beschleunigen.

2.5 Sitemap-URLs

Standardmäßig sucht unser Crawler nach der sitemap.xml im Root-Ordner (domain.com/sitemap.xml). Wenn Deine Sitemap sich an einem anderen Ort befindet oder einen anderen Namen hat, kannst Du Deine Sitemap-URL zu den Einstellungen hinzufügen, damit der Crawler ihr folgt.

Sie können so viele Sitemaps wie nötig hinzufügen (eine pro Zeile).

YOAST-Benutzer:

Wenn die sitemap_index.xml nicht korrekt erkannt wird, füge bitte jede Sitemap-URL aus dem Index hinzu.

(z.B.: .../Seiten-Sitemap.xml)

2.6 GET-Parameter ignorieren

Definiere hier GET-Parameter, die automatisch aus den gefundenen URLs auf Deiner Website entfernt werden. Dies ist nützlich, um unnötige URL-Abweichungen von Session-IDs oder Tracking-Parametern zu vermeiden. Nachteil: Probleme wie doppelter Inhalt werden möglicherweise nicht entdeckt.

3. URLs ein- oder ausschließen

3.1 URLs ausschließen (Blacklist)

Du kannst URLs von Deinem Crawl ausschließen, indem Du Blacklist-Regeln hinzufügst. In diesem Beispiel wollen wir das Magazin und unser Wiki ausschließen. Das erreichen wir, indem wir die "Unterordner" blacklisten. Die Regeln sollten wie folgt aussehen:

Diese Regel schließt alle URLs aus, deren Pfad mit /wiki/ oder /magazin/ beginnt.

Du kannst jede Regel in beliebiger Tiefe anwenden, wenn Du möchtest, dass z.B. bestimmte Seiten ausgeschlossen werden sollen:

https://de.ryte.com/product-insights/whitelist-blacklist-feature

Du kannst so viele Regeln hinzufügen, wie Du möchtest.

3.2 URLs einschließen (Whitelist)

Die Whitelist hat die gleichen Funktionen wie die Blacklist, funktioniert aber in umgekehrter Richtung. Wenn Du Regeln durch "nur einbeziehen" anwenden musst, kannst Du unsere Whitelist-Funktion verwenden.

In diesem Beispiel wollen wir NUR unser Magazin und Wiki crawlen. Das erkennen wir, indem wir jeden "Unterordner" auf die Whitelist setzen:

Diese Regel schließt nur URLs ein, deren Pfad mit /wiki/ oder /magazin/ beginnt.