Google hat angekündigt, wie es die Robots.txt künftig behandeln will.
Ab 1. September gelten neue Regeln für den Suchmaschinen-Einweiser. Google unterstützt dann einige Anweisungen in der Robots.txt nicht mehr. Sie werden angeblich zu selten verwendet.
Die Robots.txt, genauer gesagt das Robots-Exklusion-Standard-Protokoll (REP), ist seit 25 Jahren der De-facto-Standard, um Crawlern der Suchmaschinen vorzugeben, welche Bereiche einer Website sie durchsuchen oder auslassen sollen. Vor kurzem hat Google
angekündigt, REP zu einem echten Internet-Standard zu machen, der unter Open-Source-Bedingungen einsehbar ist.
Nun hat Google nachgelegt, und einige Details zum
künftigen Handling des REPveröffentlicht. In Zukunft sollen einige bisher angewandte Regeln in der Robots.txt nicht mehr unterstützt werden. Ab 1. September 2019 sollen sie durch den Google-Bot keine Beachtung mehr finden. Betroffen sind die Anweisungen:
- Noindex
- Nofollow
- Crawl-delay
Als Begründung gibt Google an, dass die genannten Anweisungen nur eine sehr geringe Verbreitung besitzen. Lediglich 0,001 Prozent aller Robots.txt-Dateien im Internet verwenden sie. Außerdem habe Google diese Anweisungen nie offiziell dokumentiert.
Änderung für Robots.txt: Google bietet Alternativen
Als Alternativen für die betroffenen Anweisungen nennt Google folgende Vorgehensweisen:
- Die Noindex-Anweisung in den X-Robots-Tag im HTTP-Header oder die Meta Robots-Tags setzen. Das ist der effektivste Weg, einzelne Websites aus dem Google-Index herauszuhalten, wenn Crawlen generell erlaubt ist.
- 404- oder 410-Status-Codes setzen: Das gaukelt dem Bot vor, dass die Seiten nicht existieren, also werden sie aus dem Google-Index herausfallen.
- Passwortschutz nutzen: Inhalte hinter einen Login zu setzen, schützt sie davor, vom Google-Index erfasst zu werden.
- Disallow in der Robots.txt einsetzen: Suchmaschinen können nur Seiten indexieren, von denen sie wissen. Setzt man den Crawlern ein Stoppschild vor die Nase, wird der Seiteninhalt üblicherweise nicht indexiert. Zwar kann die Suche eine URL selbst auf den Index stellen, bedingt durch Links von anderen Seiten, aber wenn sie keinen durchsuchbaren Inhalt enthält, soll die betreffende Seite künftig deutlich weniger sichtbar in den SERP sein, so Google.
- In der Google Search Console das Tool Remove URL verwenden: Eine einfache und schnelle Methode, um eine URL temporär aus den Google Suchergebnissen zu entfernen.
Dieser Beitrag erschien zuerst auf
t3n