Crawling und Indexierung steuern

SEO beinhaltet auch viele technische Aspekte, mitunter das Steuern von Crawling und Indexierung einer Webseite. Doch warum sollte man überhaupt in diesen Prozess eingreifen und wie setzt man das ganze um, wenn es notwendig ist?

Zunächst einmal muss klar sein, wie der Index überhaupt zu Stande kommt. An dieser Stelle daher folgende Leseempfehlung: Funktion von Suchmaschinen

Die „Google Bots“ durchsuchen also das Netz nach neuen Informationen, um diese im Index aufzunehmen. Das ganze nennt man Crawling. Das „Crawling Budget“ ist allerdings nicht für jede Website grenzenlos vorhanden, so dass es vorkommen kann, dass wichtige Informationen liegen gelassen werden. Das möchte ein Webmaster natürlich vermeiden, denn die wichtigen Informationen sollen natürlich so schnell wie möglich und auch vollständig im Index landen, damit sie gefunden werden. Daher besteht die Möglichkeit, mit einer Robots.txt Datei das Crawling zu lenken, um so dafür zu sorgen, dass nur die wichtigsten Inhalte gecrawlt werden und das „Crawling Budget“ maximal ausgenutzt wird.

Die Robots.txt Datei

Die Robots.txt Datei ist das erste Dokument, das sich ein Bot vor die Nase hält, bevor er sich an das weitere Crawling macht. Die Datei wird vom Bot wie eine Anleitung behandelt, die ihm erklärt, wie er mit der Website umgehen soll. Die großen Suchmaschinen halten sich in der Regel auch an diese Anweisungen, doch es gibt natürlich auch noch weitere und auch solche die keine guten Absichten haben und sich nicht an diese Anleitung halten. Das soll Ihnen jetzt keine Angst machen, lediglich nur zeigen, dass die Robots.txt Datei keine Garantie darstellt, das Crawling von Seiten allgemein auszuschließen.

Beispielhafter Aufbau:

Die Datei enthält zwei grundlegende Anweisungen. Die erste „-User-agent: *“ gibt zu verstehen, welcher Crawler angesprochen werden soll. Das Zeichen „*“ gibt an, dass alle Crawler die Anweisungen befolgen sollen. Es besteht auch die Möglichkeit nur bestimmte Crawler anzusprechen. Mit der zweiten Anweisung „Disallow“ können bestimmte Verzeichnisse vom Crawling ausgeschlossen werden. Die Anweisung „Allow“ ist ebenfalls möglich und macht dann Sinn, wenn Unterverzeichnisse oder Dateien in gesperrten Verzeichnissen freigegeben werden sollen.

Das Crawling beginnt immer an der ersten Zeile. Daher muss dort auch direkt klar sein, welcher Bot angesprochen werden soll. Alle anderen Anweisungen folgen dann anschließend. Wichtig ist auch, dass die Anweisungen ein Leerzeichen inne haben (nach dem Doppelpunkt). Des Weiteren sollte der Pfad zu Ihrer XML-Sitemap mit aufgenommen werden.

An dieser Stelle sei nochmal erwähnt, dass der Ausschluss von Verzeichnissen über die Robots.txt Datei keine Garantie darstellt, dass diese nicht im Index auftauchen. Linkbasierte Systeme finden unter Umständen auch über einen fremden Link zu einer Webseite. Dennoch sind die Anweisungen eine gute Möglichkeit Ihr Crawling Budget zu lenken.

Meta Robots Tag

Mit dem Meta Robots Tag lassen sich Anweisungen für bestimmte Seiten ganz individuell bestimmen. Dieser ist ein HTML-Tag, der auf jeder Seite im head-Bereich eingesetzt werden kann.

Ein Meta Robots Tag wird folgendermaßen im head-Bereich eingepflegt:

Was bedeutet diese Anweisung für den Crawler?

Dem Crawler wird damit gesagt, dass er die Seite indexieren (index) und den Links auf dieser Seite folgen soll (follow).

Diese Anweisung ist der Standard und wird vom Crawler immer befolgt, solange Sie keine Änderung vornehmen. Weitere Anweisungen können folgende sein:

Warum sollen Seiten denn nicht indexiert werden und warum keinen Links folgen???

Es gibt verschiedene Gründe warum es Sinn macht Seiten nicht zu indexieren. Meistens liegen die Gründe einfach darin, dass Seiten schlichtweg irrelevant sind und kein gutes Bild in den SERPs abliefern würden. Das können z.B. Datenschutzerklärungen oder AGBs sein, die mit „noindex“ gekennzeichnet werden können.

Die Anweisung „nofollow“ im Meta Robots Tag sagt dem Crawler, dass er den gesamten Links auf dieser Seite nicht folgen soll. Somit werden diese bei der Bildung des Indexes auch nicht berücksichtigt und der Link Juice wird nicht weitergegeben. Wenn Sie beispielsweise auf eine nicht vertrauenswürdige Quelle verlinken (Bad Neighbourhood) oder bei der „Kennzeichnung“ von Werbung, empfiehlt sich die Anwendung des „nofollow“ Attributs.

Links lassen sich auch einzeln mit „nofollow“ auszeichnen, so dass Sie nicht immer direkt alle Links auf einer Seite ausschließen müssen. Das würde dann folgendermaßen aussehen:

Bei der internen Linkstruktur sollte das „nofollow“ Attribut allerdings keine Anwendung finden, da dadurch wertvoller Linkjuice verloren geht. Um „unwichtige“ Seiten auszuschließen sollten Sie besser auf die Robots.txt Datei oder auf „noindex“ zurückgreifen.

Canonical Tag

Das Canonical Tag ist ebenfalls eine Angabe im head-Bereich und wird eingesetzt, um Duplicate Content zu vermeiden. In einem Shop kann es beispielsweise zu Duplicate Content kommen, wenn ein Produkt in mehreren Kategorien zur Verfügung steht. Ebenso kann die Erreichbarkeit über http:// und https:// ein Canonical Tag erfordern, um nur ein paar Beispiele zu nennen.

Folgendermaßen wird das Canonical Tag im head-Bereich eingesetzt:

Das gesamte Element wird im head-Bereich einer Seite eingefügt, die identischen Inhalt aufweist und nicht die „Original-Seite“ ist.
Durch die Auszeichnung gibt man dem Crawler zu verstehen, dass die verlinkte Seite die eigentlich wichtige Seite ist und hier kein Duplicate Content vorliegt.

Fazit

Die vorgestellten Werkzeuge geben Ihnen die Möglichkeit, das Crawling, sowie die Indexierung Ihrer Webseiten zu beeinflussen und eine Abstrafung wegen Duplicate Content zu vermeiden. Dabei ist allerdings Vorsicht geboten und der Einsatz sollte nur in einem vernünftigen Maß und auch nur dort eingesetzt werden, wo es auch wirklich erforderlich ist. Vor allem beim Thema Link Juice sollte mit Bedacht gearbeitet werden.

Beim Einsatz der unterschiedlichen Möglichkeiten sollten Sie ebenfalls berücksichtigen, dass Sie keine Widersprüche erzeugen. Haben Sie beispielsweise per Robots.txt Datei, Seiten vom Crawling ausgeschlossen, bringt es mit großer Wahrscheinlichkeit nichts, in diesen Seiten noch zusätzlich im head-Bereich Anweisungen zu erteilen, da diese sowieso nicht gecrawlt werden sollen. Der Bot muss natürlich eine Seite crawlen können, damit er die Anweisung berücksichtigen kann.

Zusammengefasst lässt sich sagen, dass Sie mit der Robots.txt Datei allgemeine Richtlinien setzen können. Das Meta Robots Tag kann individuell eingesetzt werden und die Indexierung, sowie die Weitervererbung der Linkkraft beeinflussen. Das Canonical Tag wird eingesetzt um Duplicate Content zu verhindern.

Sie benötigen Hilfe bei Ihren SEO-Maßnahmen? Wir unterstützen Sie dabei. Kostenlos und unverbindlich beraten wir Sie zunächst gerne in einem persönlichen Gespräch. Ebenfalls interessant könnte für Sie unser kostenloser SEO-Check sein. Nutzen Sie die Chance.
Kostenlose Erstberatung
2018-03-16T09:57:50+00:00

Sie haben Fragen oder Anregungen? Schreiben Sie uns.

This site uses Akismet to reduce spam. Learn how your comment data is processed.