Was Sie über die Robots.txt wissen sollten

Haben Sie sich auch schon gewundert, warum das Fehlerprotokoll Ihres Web-Servers ständig Einträge wie

[error] [client 204.62.245.187] File does not exist: /usr/local/etc/httpd/htdocs/meinesupersite/robots.txt

enthält?

Wenn Sie Ihre Website bei Suchmaschinen (Engines) anmelden, „besucht“ die Suchmaschine Ihre Website, um sie zu erfassen. Dabei wird von den meisten Suchmaschinen in der Regel automatisch auch nach der Datei robots.txt gesucht. Ist die Datei nicht vorhanden, wird der bekannte Fehler erzeugt.

Die Verwendung der Datei robots.txt ist nicht zwingend erforderlich. Statt der robots.txt können Sie auch alternativ den Meta-Tag „robots“ verwenden. Wer sich allerdings bei hunderten von Suchmaschinen angemeldet hat (z. B. mit Hilfe von Hello Engines!), wird sich wundern, wie oft diese Fehlermeldungen erscheinen, sofern die robots.txt nicht vorhanden ist. Beachten Sie, dass nicht wenige Suchmaschinen Ihre Website täglich besuchen! Hier kann die error.log schnell ungeahnte Dateigrößen voll mit irrelevanten Fehlermeldungen enthalten.

Sie können für Ihre Website in der Datei robots.txt festlegen, welche Seiten Ihrer Website von der Indizierung ausgenommen werden sollen. Beachten Sie, dass nur eine robots.txt auf Ihren Server berücksichtigt wird und diese muss im Top-Level stehen. Auf einem UNIX-System könnte das beispielsweise das Verzeichnis

/usr/local/etc/httpd/htdocs/robots.txt sein.

Die Syntax für die Datei robots.txt ist sehr einfach und ihr Inhalt sieht in der Regel wie folgt aus:

User-agent: *

Disallow: /cgi-bin/

Disallow: /kundendaten/

In diesem Fall werden zwei Verzeichnisse von der Indizierung ausgenommen. Für jedes Verzeichnis, das nicht durch die Suchmaschine indiziert werden soll, müssen Sie eine separate „Disallow“-Zeile einfügen.

Um beispielsweise allen Robots den Zugriff, bzw. die Indizierung Ihrer vollständigen Website zu untersagen, geben Sie folgende Zeilen in die Datei robots.txt ein:

User-agent: *

Disallow: /

Um allen Robots den Zugriff, bzw. die Indizierung Ihrer vollständigen Website zu erlauben, geben Sie folgende Zeilen in die Datei robots.txt ein:

User-agent: *

Disallow:

Um einem bestimmten Robot den Zugriff auf Ihre Verzeichnisse zu untersagen, geben Sie Folgendes ein:

User-agent: Yahoo

Disallow: /

Um nur einem bestimmten Robot den Zugriff auf Ihre Verzeichnisse zu erlauben (und alle anderen auszuschließen), geben Sie Folgendes ein:

User-agent: Yahoo

Disallow:

User-agent: *

Disallow: /

Sie können beispielsweise auch einzelne Seiten von der Indizierung ausnehmen:

User-agent: *

Disallow: /client data/passwoerter.html

One Response to Was Sie über die Robots.txt wissen sollten

  1. Bei eurem Tool „Hello Engines“ gibt es doch glaub ich auch eine Möglichkeit eine robots.txt
    zu erstellen, oder?

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Zum Seitenanfang