Blog Technisches SEO Was ist die Robots.txt-Datei und wie wird sie richtig konfiguriert?

Was ist die Robots.txt-Datei und wie wird sie richtig konfiguriert?

Dec 8, 2023 [Updated on Jan 31, 2024]

SEO Audit

Durchsuchen Sie die Website nach technischen Problemen und erhalten Sie eine priorisierte Aufgabenliste mit detaillierten Anleitungen zur Behebung.

Vertraut von

Kostenloses Website SEO Checker & Audit Tool

Scannen Sie die Website auf über 300 technische Probleme
Überwachen Sie den Zustand Ihrer Website 24/7
Verfolgen Sie die Platzierungen Ihrer Website in jeder Region

Los geht's

Was ist robots txt? Die Datei robots.txt liefert Suchsystemen die Information, die sie braucht, um verwertbare Suchergebnisse zu liefern. Bevor sie Ihre Site durchsucht, durchleuchten Tobots diese Datei. Diese Prozedur macht das Scannen effizienter. Damit helfen Sie Suchsystemen, sodas die wichtigsten Daten auf Ihrer ersten Seite zuerst indiziert werden, dann der Rest. Aber das ist nur möglich, wenn Sie eine korrekt konfigurierte robots.txt haben.

Ähnlich wie die robots.txt Datei gibt die noindex-Anweisung im Meta Tag Robots nur eine Empfehlung für Robots. Das ist der Grund, warum sie nicht garantieren können, dass diese verschlossenen Seiten nicht indiziert warden und nicht im Index inkludiert sein warden. Garantien in dieser Sache sind ohnehin unangebracht. Wenn Sie eine Seite wirklich von der Indizierung ausschließen wollne, müssen Sie ein Passwort setzen, damit das Verzeichnis geschlossen bleibt. Das robots.txt erstellen ist ein wichtiger Schritt für SEO.

Hauptsyntax

User-Agent: Der Robot wird die folgenden Regeln anwenden (beispielsweise der “Googlebot”)

Disallow: (dt: Verbieten) die Seiten, die Sie vor Zugriff ausschließen wollen (am Beginn jeder neuen Zeile können Sie eine lange Liste von gewünschten Pfaden einschließen)

Jede Gruppe User-Agent / Disallow sollte mit einer Leerzeile abgetrennt werden. Aber nicht-leere Strings dürfen nicht innerhalb einer Gruppe (zwischen User-Agent und dem letzten Disallow-Pfad) aufscheinen.

Hash mark (#) kann verwendet werden, um ggf. Kommentare in der robots.txt innerhalb einer aktuellen Zeile einzupflegen. Alles, was nach dem Hash Mark angeführt wird, wird ignoriert. Wenn Sie mit einem robot txt Dateigenerator arbeiten, ist dieser Kommentar für die ganze Zeile oder auch am Ende davon nach den Pfaden anwendbar.

Kataloge und Dateinamen sind Verzeichnis-sensibel: Das Suchsystem akzeptiert «Catalog», «catalog» und «CATALOG» als unterschiedliche Pfade.

Host: wird für Yandex verwendet, um Mirrorsites hervorzuheben. Das ist der Grund, warum Sie eine 301 Weiterleitung pro Seite einpflegen, um zwei Sites miteinander zusammen zu kleben. Es gibt keinen Grund, diese Prozedur in der robots.txt zu wiederholen (auf der Dupplikatseite). Somit wird Yandex den angegebenen Pfad auf der Seite, die angeheftet wird, finden.

Crawl-delay: (dt: Crawl-Verzögerung) Sie können die Geschwindigkeit Ihrer Seitendurchkreuzung limitieren. Das ist ideal, wenn es zu hoher Aufmerskamkeitsfrequenz auf Ihrer Site kommt. Diese Option ist verfügbar, um die robot.txt Dateigeneratoren von zusätzlichen Problemen mit einer Extraladung Ihres Servers, verursacht durch Suchsysteme, die Informationen auf Ihrer Site suchen, zu bewahren.

Regular phrases: (dt: regelmäßige Ausdrücke) für flexiblere Einstellungen der Pfade können Sie die beiden Symbole unten verwenden:
* (Stern) – kennzeichnet jede Symbolsequenz,
$ (Dollarzeichen) – steht für das Ende der Zeile.

Hauptbeispiele für die Verwendung des robots.txt Generators

Bann der Indizierung auf der kompletten Site

User-agent: *

Disallow: /

Diese Anleitung muss verwendet werden, wenn Sie eine neue Site erzeugen und Subdomains verwenden, um Zugriff darauf zu gewähren.
Häufig vergessen Web Entwickler, wenn Sie auf einer neuen Site arbeiten, einige Teile der Site von der Indizierung auszuschließen. Als Ergebnis legen Indiziersysteme eine komplette Kopie davon an. Wenn solche Fehler passiert sind, muss Ihre Masterdomain auf jeder Seite eine 301 Weiterleitung bekommen. Robot.txt Generator kann hier tolle Dienste leisten!

Die folgende Konstruktion VERHINDERT die Indizeirung der kompletten Site:

User-agent: *

Disallow:

Bann der Indizierung von einem bestimmten Verzeichnis

User-agent: Googlebot

Disallow: /no-index/

Bann eines bestimmten Robots beim Besuch einer Seite

User-agent: Googlebot

Disallow: /no-index/this-page.html

Bann der Indizierung einzelner Dateitypen

User-agent: *

Disallow: /*.pdf$

Um einen Besuch einer bestimmten Seite für einen bestimmten Web Robot zu erlauben

User-agent: *

Disallow: /no-bots/block-all-bots-except-rogerbot-page.html

User-agent: Yandex

Allow: /no-bots/block-all-bots-except-Yandex-page.html

Website Link zur Sitemap

User-agent: *

Disallow:

Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Besonderheiten, die berücksichtigt werden sollen, wenn dieser Pfad benutzt wird, wenn Sie die Site mit einzigartigen Inhalten füllen:

Fügen Sie keinen Link in Ihrer Site Map im Robots Textdatei Generator hinzu;
Wählen Sie einige nicht standardmäßige Namen für die Site Map von sitemap.xml (beispielsweise my-new-sitemap.xml und dann fügen Sie den Link zum Suchsystem mittels Webmaster);

weil viele unfaire Webmaster zerlegen den Inhalt anderer Sites außer ihre eigenen und verwenden diese für deren eigene Projekte.

Überprüfen Sie auf Ihren Webseiten den Indexierungsstatus

Erkennen Sie alle nicht indizierten URLs in und finden Sie heraus, welche Websiteseiten von Suchmaschinen-Bots gecrawlt werden dürfen

Was ist besser – Robots txt Generator oder Noindex?

Wenn Sie wollen, dass manche Seiten von der Indizierung ausgeschlossen werden, ist Noindex im Meta Tag Robots empfehlenswerter. Um dies zu implementieren, müssen Sie den folgenden Meta Tag im Bereich Ihrer Seite einfügen:

<meta name=”robots” content=”noindex, follow”>

Wenn Sie diesen Ansatz verwenden, werden Sie:

die Indizierung bestimmter Seiten während des Besuchs des Web Robots verhindern (Sie müssen dann keine Seiten manuell mittels Webmaster löschen);
es schaffen, den Link Juice Ihrer Seite zu übertragen.

Robots txt Dateigenerator ist besser, wenn es darum geht, folgende Seiten auszuschließen:

administrative Seiten Ihrer Site;
Suchdaten auf der Site;
Seiten der Registrierung/Authentifizierung/Passwort-Rücksetzung.

Welches Tool verwenden und wie kann es helfen, die robots.txt Datei zu prüfen?

Wenn Sie eine robots.txt generieren, müssen Sie überprüfen, ob diese irgendwelche Fehler enthält. Die robots.txt Überprüfung der Suchsysteme kann Ihnen dabei helfen:

Google Webmasters

Melden Sie sich mit dem Acocunt der aktuellen Site auf der Plattform an, gehen Sie zu Crawl, dann zu robots.txt Tester.

Robots.txt tester in Google Search Console

Dieser Robot txt Test erlaubt es:

alle Fehler und möglichen Probleme auf einmal zu finden;
Fehler zu suchen und alle benötigten Korrekturen sofort zu tätigen, um die neue Datei auf Ihrer Site ohne zusätzliche Änderungen zu installieren;
Herauszufinden, ob Sie die Seiten, die Sie von der Indizierung ausgeschlossen haben, passen oder ob die, die indiziert werden sollen, auch offen sind.

Yandex Webmaster

Melden Sie sich am Account der aktuellen Site an, gehen Sie zu Tools und dann zu Robots.txt Analysis.

Dieser Tester bietet fast identische Möglichkeiten für die Verifizierung wie die oben beschriebene. Die Unterschiede sind:

Hier müssen Sie sich nicht authorizieren, um die Rechte für eine Site zu bestätigen, die eine direkte Verifizierung zu Ihrer robots.txt Datei bietet;
Es gibt keine Notwendigkeit, pro Seite folgendes einzufügen: Die komplette Liste der Seiten kann innerhalb einer Session überprüft werden
Sie können sicher sein, dass Yandex Ihre Instruktionen passend durchgeführt hat.

Roman Rohoza

Head of SEO at Sitechecker

Roman joined the team in 2021 and built the SEO team from scratch. He has 9 years of experience in the field and has successfully led SaaS projects such as Sitechecker and Logaster for 4 years, implementing SEO strategies on them. Vollständige Biografie lesen

Facebook Linkedin

Schnelle Links