Webdesign
Printdesign
Werbedesign

Tutorial Onpageoptimierung Robots.txt

Die Robots.txt richtig anlegen



Webdesigner Die Datei Robots.txt

Suchmaschinen suchen nicht in Echtzeit, denn wenn die Suchmaschinen wegen jeder Suchanfrage erst Milliarden von Webseiten und Unterseiten durchsuchen müssten, würde es Tage dauern bis irgendwann einmal die Suchergebnisse angezeigt werden könnten.

Deshalb bedienen sich die Suchmaschinen kleiner Programme. Diese Programme auch Robots oder Suchmaschinenspider genannt, crawlen die ganze Zeit Webseiten und folgen im Idealfall den darauf enthalten Links um immer wieder neue Webseiten zu finden, so ist der Spider den ganzen Tag am durchsuchen und speichern von Internetseiten bzw. der Treffer Angaben. Diese Ergebnisse werden in so genannten „DC’s“ Datacentern gespeichert. Somit können die Suchmaschinen mit dem der Nutzer sucht, innerhalb kürzester Zeit mit den entsprechenden Ergebnissen dienen.

Und genau für diese Robots benötigen wir die Datei Robots.txt, denn das aller Erste was der Spider auf dem Webspace sucht ist diese Datei. In dieser Datei werden Regeln für die Suchmaschinenrobots angegeben.

Wie sieht diese Datei aus und Welche Angaben müssen dort herein?

Die Robots Datei ist ein ganz normales Textdokument, welches Sie ganz einfach mittels

Rechtsklick -> Neu -> Textdokument -> umbenennen in robots.txt ( Sie müssen darauf achten den Namen klein zu schreiben )

in jedem Ordner auf Ihrem Computer erstellen können. Geöffnet und bearbeitet wird dieses Textdokument im ganz normalen Texteditor.

Wo muss die Datei robots.txt auf dem Webspace platziert werden ?

Die Robots.txt muss im Hauptverzeichnis ( Root ) auf Ihrem Webspace abgelegt werden.
Der Pfad zu dieser Datei muüsste so aussehen.

Der Aufbau der Datei Robots.txt

Die Robots Textdatei wird nach eine bestimmten Schema aufgebaut, dem so genannten "Robots Exclusion Standard". Als Erstes geben wir an für welchen Suchmaschinenrobot die Anweisung gelten soll.

User-agent: NamedesRobots

danach werden die Einzelnen Dokumente oder Ordner die der Crawler nicht durchsuchen soll benannt. Dies geschieht mit der Anweisung

Disallow:

Beispiel:
User-agent: Beispielrobot
Disallow: /temp/
Disallow: /logfiles/
Disallow: /cgi-bin/
Disallow: /geheim.html


Will man alle Suchmaschinen-Robots aussperren benutzt man den sogenannten Wildchar ( * ).

Beispiel:
User-agent: *
Disallow: /temp/
Disallow: /logfiles/
Disallow: /cgi-bin/


Wenn man nicht gleich alle Crawler aussperren will kann man das mit diesem Beispiel tun.

Beispiel:
User-agent: Beispielrobot
User-agent: Beispielrobot1
User-agent: Beispielrobot2
Disallow: /temp/
Disallow: /logfiles/


Um die ganze Seite von der Indexierung auszuschließen kann man folgende Anweisung benutzen.

Beispiel:
User-agent: *
Disallow: /


Wenn man die ganze Seite Indexieren lassen möchte läßt man einfach den Slash ( / ) weg.

Beispiel:
User-agent: *
Disallow:


Bei den Disallow Einträgen ist die Groß- und Kleinschreibung völlig egal, allerdings sollte man darauf achten, wo und ob man den Slash ( / ) setzt.

Beispiel:
User-agent: *
Disallow: /ordner/


Die Anweisung " Disallow: /temp/ " schliesst wirklich nur die Dateien im Verzeichnis /temp/ aus.

Wohingegen
Beispiel:
User-agent: *
Disallow: /ordner


Dazu führen würde, dass alle Urls die mit /ordner anfangen nicht indexiert werden.

Natürlich können Sie diese Anweisungen auch in der robots.txt Datei kombinieren.

Beispiel:
User-agent: Beispielrobot
Disallow: /

User-agent: Beispielrobot1
User-agent: Beispielrobot2
Disallow:

User-agent: *
Disallow: /temp/
Disallow: /logfiles/
Disallow: /cgi-bin/


Es ist auf jeden Fall sinnvoll, eine minimale robots.txt Datei nach diesem Schema zu erstellen:

Beispiel:
User-agent: *
Disallow:


Da man so viele unnötige Einträge in den Errorlogs verhindert (404 Not found), diese werden sonst immer dann auftauchen, wenn die Suchmaschinenspider die Datei Robots.txt nicht finden.

Um Fehler zu vermeiden und zu prüfen ob der Syntax Ihrer Robots.txt richtig ist, können Sie dieses Tool Checkrobot zur Überprüfung benutzen.

Onpage - Optimierung Zurück - Suchmaschinenoptimierung - Weiter Offpage - Optimierung


Since1980.de
Corporate Design
Startseite
Impressum
Kontakt
Sitemap
XHTML Check Since1980.de
CSS Check Since1980.de


Kontakt:
Rene Riedel
Internetservice Altenburg
Zschernitzscher Str. 38
04600 Altenburg
Email: webmaster@since1980.de
www.since1980.de