Verbot der Dateiindizierung. Je weniger Seiten indiziert sind, desto mehr Verkehr

23.06.2022 | Gesundheit

Vom Autor: Gibt es Seiten auf Ihrer Website, die Suchmaschinen nicht sehen sollen? In diesem Artikel erfahren Sie ausführlich, wie Sie die Seitenindizierung in robots.txt verhindern, ob dies richtig ist und wie Sie den Zugriff auf Seiten generell blockieren.

Sie müssen also verhindern, dass bestimmte Seiten indiziert werden. Der einfachste Weg, dies zu tun, besteht darin, in der robots.txt-Datei selbst die erforderlichen Zeilen hinzuzufügen. Ich möchte darauf hinweisen, dass wir die Ordneradressen relativ zueinander angegeben haben, die URLs bestimmter Seiten auf die gleiche Weise angegeben wurden oder Sie einen absoluten Pfad eingeben können.

Nehmen wir an, mein Blog hat ein paar Seiten: Kontakte, über mich und meine Dienstleistungen. Ich möchte nicht, dass sie indiziert werden. Dementsprechend schreiben wir:

Benutzeragent: * Nicht zulassen: /kontakty/ Nicht zulassen: /about/ Nicht zulassen: /uslugi/

Eine weitere Option

Großartig, aber das ist nicht die einzige Möglichkeit, den Zugriff des Roboters auf bestimmte Seiten zu blockieren. Die zweite besteht darin, ein spezielles Meta-Tag im HTML-Code zu platzieren. Platzieren Sie natürlich nur die Datensätze, die geschlossen werden müssen. Es sieht so aus:

< meta name = "robots" content = "noindex,nofollow" >

Damit das Tag ordnungsgemäß funktioniert, muss es im Head-Container des HTML-Dokuments platziert werden. Wie Sie sehen, hat es zwei Parameter. Der Name wird als Roboter angegeben und gibt an, dass diese Anweisungen für Webcrawler bestimmt sind.

Der Inhaltsparameter muss zwei durch Kommas getrennte Werte haben. Das erste ist ein Verbot oder eine Erlaubnis, Textinformationen auf der Seite zu indizieren, das zweite ist ein Hinweis darauf, ob Links auf der Seite indiziert werden sollen.

Wenn Sie also möchten, dass die Seite überhaupt nicht indiziert wird, geben Sie die Werte noindex, nofollow an, d. h. den Text nicht indizieren und ggf. folgende Links verbieten. Es gibt die Regel, dass eine Seite, die keinen Text enthält, nicht indiziert wird. Das heißt, wenn der gesamte Text in noindex geschlossen ist, gibt es nichts, was indiziert werden könnte, sodass nichts in den Index aufgenommen wird.

Darüber hinaus gibt es folgende Werte:

noindex, follow – Verbot der Textindizierung, aber Erlaubnis, Links zu folgen;

index, nofollow – kann verwendet werden, wenn der Inhalt in den Index aufgenommen werden soll, aber alle darin enthaltenen Links geschlossen werden sollen.

index, follow – Standardwert. Alles ist erlaubt.

Die robots.txt-Datei ist eine Reihe von Anweisungen (eine Reihe von Regeln für Robots), mit denen Sie Suchroboter blockieren oder zulassen können, bestimmte Abschnitte und Dateien Ihrer Website zu indizieren sowie zu informieren Weitere Informationen. Ursprünglich war es mit robots.txt nur möglich, die Indizierung von Abschnitten zu verbieten; die Möglichkeit, die Indizierung zuzulassen, erschien später und wurde von den Suchführern Yandex und Google eingeführt.

Struktur der Robots.txt-Datei

Zunächst wird die User-Agent-Direktive geschrieben, die zeigt, für welchen Suchroboter die Anweisungen gelten.

Eine kleine Liste bekannter und häufig verwendeter Benutzeragenten:

Benutzeragent:*
Benutzeragent: Yandex
Benutzeragent: Googlebot
Benutzeragent: Bingbot
Benutzeragent: YandexImages
Benutzeragent: Mail.RU

Als nächstes folgen die Disallow- und Allow-Anweisungen, die die Indizierung von Abschnitten, einzelnen Site-Seiten oder Dateien verbieten bzw. zulassen. Dann wiederholen wir diese Schritte für den nächsten User-Agent. Am Ende der Datei befindet sich eine Sitemap-Anweisung, die die Adresse Ihrer Sitemap angibt.

Beim Schreiben von Disallow- und Allow-Anweisungen können Sie die Sonderzeichen * und $ verwenden. Dabei bedeutet * „beliebiges Zeichen“ und $ „Zeilenende“. Disallow: /admin/*.php bedeutet beispielsweise, dass die Indizierung aller Dateien, die sich im Admin-Ordner befinden und mit .php enden, verboten ist. Disallow: /admin$ verbietet die Adresse /admin, aber nicht /admin.php , oder / admin/new/ , falls verfügbar.

Wenn alle Benutzeragenten denselben Satz von Anweisungen verwenden, ist es nicht erforderlich, diese Informationen für jeden von ihnen zu duplizieren: * reicht aus. Falls es notwendig ist, die Informationen für einen der Benutzeragenten zu ergänzen, sollten Sie die Informationen duplizieren und eine neue hinzufügen.

Beispiel robots.txt für WordPress:

*Hinweis für Benutzeragent: Yandex

Überprüfe robots.txt

Alte Version der Search Console

Um die Richtigkeit von robots.txt zu überprüfen, können Sie verwenden Webmaster von Google- Sie müssen zum Abschnitt „Crawling“ und dann zu „Als Googlebot anzeigen“ gehen und dann auf die Schaltfläche „Empfangen und anzeigen“ klicken. Als Ergebnis des Scans werden zwei Screenshots der Website angezeigt, die zeigen, wie die Website von Benutzern angezeigt wird und wie Suchroboter sie sehen. Unten sehen Sie eine Liste von Dateien, deren Indexierungsverbot das korrekte Lesen Ihrer Website durch Suchroboter verhindert (sie müssen für die Indexierung durch den Google-Roboter zugelassen werden).

Typischerweise können dies verschiedene Stylesheet-Dateien (CSS), Javascript und Bilder sein. Nachdem Sie die Indizierung dieser Dateien zugelassen haben, sollten beide Screenshots in Webmaster identisch sein. Ausnahmen bilden Dateien, die sich remote befinden, beispielsweise ein Yandex.Metrica-Skript oder Schaltflächen soziale Netzwerke usw. Sie können sie nicht für die Indizierung blockieren/zulassen. Weitere Informationen zur Behebung des Fehlers „Googlebot kann nicht auf CSS- und JS-Dateien auf der Website zugreifen“ finden Sie in unserem Blog.

Neue Version der Search Console

IN neue Version Für die Prüfung von robots.txt gibt es keinen separaten Menüpunkt. Jetzt müssen Sie nur noch die Adresse des gewünschten Landes in die Suchleiste einfügen.

Klicken Sie im nächsten Fenster auf „Die gescannte Seite untersuchen“.

Im angezeigten Fenster sehen Sie Ressourcen, auf die der Google-Roboter aus dem einen oder anderen Grund nicht zugreifen kann. IN konkretes Beispiel Es werden keine Ressourcen durch die robots.txt-Datei blockiert.

Wenn solche Ressourcen vorhanden sind, werden Meldungen wie die folgende angezeigt:

Jede Site verfügt über eine einzigartige robots.txt-Datei, einige gemeinsame Merkmale können jedoch in der folgenden Liste identifiziert werden:

Blockieren Sie Autorisierung, Registrierung, Merken von Passwörtern und anderen technischen Seiten von der Indexierung.
Ressourcenadministrationsbereich.
Sortierseiten, Seiten zum Anzeigen von Informationen auf der Website.
Für Online-Shops, Warenkorbseiten, Favoriten. Weitere Informationen finden Sie in den Tipps für Online-Shops zu den Indexierungseinstellungen im Yandex-Blog.
Suchseite.

Dies ist nur eine ungefähre Liste dessen, was von Suchmaschinen-Robots für die Indexierung blockiert werden kann. In jedem Fall müssen Sie verstehen individuell, in manchen Situationen kann es Ausnahmen von den Regeln geben.

Abschluss

Die robots.txt-Datei ist ein wichtiges Tool zur Regulierung der Beziehung zwischen der Website und dem Suchmaschinen-Roboter. Es ist wichtig, Zeit für die Einrichtung aufzuwenden.

Der Artikel enthält zahlreiche Informationen zu Yandex- und Google-Robots. Dies bedeutet jedoch nicht, dass Sie eine Datei nur für diese erstellen müssen. Es gibt noch andere Roboter – Bing, Mail.ru usw. Sie können robots.txt mit Anweisungen für diese ergänzen.

Viele moderne CMS erstellen automatisch eine robots.txt-Datei und enthalten möglicherweise veraltete Anweisungen. Daher empfehle ich Ihnen, nach der Lektüre dieses Artikels die robots.txt-Datei auf Ihrer Website zu überprüfen und zu löschen, falls sie dort vorhanden sind. Wenn Sie nicht wissen, wie das geht, wenden Sie sich bitte an

Robots.txt ist eine Servicedatei, die als Empfehlung für die Einschränkung des Zugriffs auf den Inhalt von Webdokumenten für Suchmaschinen dient. In diesem Artikel werden wir uns mit der Einrichtung von Robots.txt befassen, die Anweisungen beschreiben und es für gängige CMS verfassen.

Gelegen diese Datei Der Roboter befindet sich im Stammverzeichnis Ihrer Site und wird mit einem einfachen Notepad geöffnet/bearbeitet, ich empfehle Notepad++. Für diejenigen, die nicht gerne lesen, gibt es ein VIDEO, siehe Ende des Artikels 😉

Warum brauchen wir robots.txt?

Wie ich oben sagte, können wir mithilfe der robots.txt-Datei den Zugriff von Suchbots auf Dokumente beschränken, d. h. Wir haben direkten Einfluss auf die Indexierung der Website. Am häufigsten wird die Indizierung blockiert:

Servicedateien und CMS-Ordner
Duplikate
Dokumente, die für den Benutzer nicht nützlich sind
Keine eindeutigen Seiten

Schauen wir uns ein konkretes Beispiel an:

Ein Online-Shop für Schuhe ist auf einem der gängigen CMS implementiert, und das nicht optimal. Ich kann sofort erkennen, dass die Suchergebnisse Suchseiten, Paginierung, einen Warenkorb, einige Suchmaschinendateien usw. umfassen. Bei all diesen handelt es sich um Duplikate und Dienstdateien, die für den Benutzer nutzlos sind. Daher sollten sie von der Indexierung ausgeschlossen werden, und wenn es auch einen „News“-Bereich gibt, in den verschiedene interessante Artikel von Mitbewerberseiten kopiert und eingefügt werden, dann besteht kein Grund zur Überlegung, wir schließen ihn gleich.

Deshalb achten wir darauf, eine robots.txt-Datei zu erstellen, damit kein Müll in die Ergebnisse gelangt. Vergessen Sie nicht, dass die Datei unter http://site.ru/robots.txt geöffnet werden sollte.

Robots.txt-Anweisungen und Konfigurationsregeln

Benutzeragent. Dies ist ein Appell an einen bestimmten Roboter Suchmaschine oder an alle Roboter. Wenn ein bestimmter Robotername angegeben wird, zum Beispiel „YandexMedia“, dann werden dafür keine allgemeinen Benutzeragentenanweisungen verwendet. Schreibbeispiel:

Benutzeragent: YandexBot Disallow: /cart # wird nur vom Haupt-Indizierungsroboter von Yandex verwendet

Nicht zulassen/erlauben. Hierbei handelt es sich um ein Verbot bzw. eine Erlaubnis zur Indexierung eines bestimmten Dokuments oder Abschnitts. Die Schreibreihenfolge spielt keine Rolle, aber wenn es zwei Anweisungen und dasselbe Präfix gibt, hat „Zulassen“ Vorrang. Der Suchroboter liest sie anhand der Länge des Präfixes, vom kleinsten zum größten. Wenn Sie die Indizierung einer Seite deaktivieren müssen, geben Sie einfach den relativen Pfad dazu ein (Disallow: /blog/post-1).

User-Agent: Yandex Disallow: / Allow: /articles # Wir verbieten die Site-Indizierung, mit Ausnahme von Artikeln im ersten Abschnitt

Reguläre Ausdrücke mit * und $. Ein Sternchen bedeutet eine beliebige Zeichenfolge (einschließlich leerer Zeichenfolgen). Das Dollarzeichen bedeutet Unterbrechung. Anwendungsbeispiele:

Disallow: /page* # verbietet alle Seiten und Konstruktionen http://site.ru/page Disallow: /arcticles$ # verbietet nur die Seite http://site.ru/articles und erlaubt die Seiten http://site.ru/ Artikel /Neu

Sitemap-Anweisung. Wenn Sie es verwenden, sollte es in robots.txt wie folgt angezeigt werden:

Sitemap: http://site.ru/sitemap.xml

Host-Anweisung. Wie Sie wissen, verfügen Websites über Spiegel (wir lesen). Diese Regel verweist den Suchbot auf den Hauptspiegel Ihrer Ressource. Bezieht sich auf Yandex. Wenn Sie einen Spiegel ohne WWW haben, dann schreiben Sie:

Host: site.ru

Crawl-Verzögerung. Legt die Verzögerung (in Sekunden) zwischen dem Herunterladen Ihrer Dokumente durch den Bot fest. Es ist nach den Disallow/Allow-Anweisungen geschrieben.

Crawl-Verzögerung: 5 # Timeout in 5 Sekunden

Clean-param. Zeigt dem Suchbot an, dass keine Notwendigkeit besteht, zusätzliche doppelte Informationen (Sitzungskennungen, Referrer, Benutzer) herunterzuladen. Clean-param sollte für dynamische Seiten angegeben werden:

Clean-param: ref /category/books # Wir geben an, dass unsere Seite die Hauptseite ist und http://site.ru/category/books?ref=yandex.ru&id=1 dieselbe Seite ist, jedoch mit Parametern

Hauptregel: robots.txt muss in Kleinbuchstaben geschrieben sein und sich im Stammverzeichnis der Site befinden. Beispieldateistruktur:

Benutzeragent: Yandex Nicht zulassen: /cart Erlauben: /cart/images Sitemap: http://site.ru/sitemap.xml Host: site.ru Crawl-Verzögerung: 2

Meta-Robots-Tag und wie es geschrieben ist

Diese Option zum Sperren von Seiten wird von der Google-Suchmaschine besser berücksichtigt. Yandex berücksichtigt beide Optionen gleichermaßen gut.

Es gibt zwei Richtlinien: folgen/nofollow Und index/noindex. Dies ist die Erlaubnis/das Verbot, Links zu folgen, und die Erlaubnis/das Verbot der Dokumentindizierung. Anweisungen können zusammen geschrieben werden, siehe Beispiel unten.

Für jede einzelne Seite können Sie das Tag eingeben Folgendes:

Korrigieren Sie robots.txt-Dateien für gängige CMS

Beispiel Robots.txt für WordPress

Unten können Sie meine Version aus diesem SEO-Blog sehen.

Benutzeragent: Yandex Nicht zulassen: /wp-content/uploads/ Erlauben: /wp-content/uploads/*/*/ Nicht zulassen: /wp-login.php Nicht zulassen: /wp-register.php Nicht zulassen: /xmlrpc.php Nicht zulassen : /template.html Nicht zulassen: /cgi-bin Nicht zulassen: /wp-admin Nicht zulassen: /wp-includes Nicht zulassen: /wp-content/plugins Nicht zulassen: /wp-content/cache Nicht zulassen: /wp-content/themes Nicht zulassen: / wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Nicht zulassen: */comments/ Nicht zulassen: /?feed= Nicht zulassen: /?.php Nicht zulassen: /wp-register.php Nicht zulassen: /xmlrpc.php Nicht zulassen: /template.html Nicht zulassen: /cgi-bin Nicht zulassen: /wp-admin Nicht zulassen: /wp-includes Nicht zulassen: /wp-content/plugins Nicht zulassen: /wp-content/cache Nicht zulassen: /wp-content/themes Nicht zulassen: /wp-trackback Nicht zulassen: /wp-feed Nicht zulassen: /wp-comments Nicht zulassen: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?. xml

Ich verbiete Trackbacks, da dadurch ein Teil des Artikels in den Kommentaren dupliziert wird. Und wenn es viele Trackbacks gibt, erhalten Sie eine Menge identischer Kommentare.

Ich versuche, die Dienstordner und Dateien aller CMS zu schließen, weil... Ich möchte nicht, dass sie in den Index aufgenommen werden (obwohl Suchmaschinen sie sowieso nicht akzeptieren, aber es wird nicht schlimmer sein).

Feeds sollten geschlossen werden, weil Dabei handelt es sich um teilweise oder vollständig doppelte Seiten.

Wir schließen Tags, wenn wir sie nicht verwenden oder zu faul sind, sie zu optimieren.

Beispiele für andere CMS

Um die richtigen Robots für das gewünschte CMS herunterzuladen, klicken Sie einfach auf den entsprechenden Link.

Bei jedem Zugriff auf eine Website suchen und lesen Suchroboter zunächst die robots.txt-Datei. Es enthält spezielle Anweisungen, die das Verhalten des Roboters steuern. Eine versteckte Gefahr für jede Site kann sowohl vom Fehlen dieser Datei als auch von ihrer falschen Konfiguration ausgehen. Ich schlage vor, mich eingehender mit der Einrichtung von robots.txt im Allgemeinen und für das WordPress CMS im Besonderen zu befassen und auch auf häufige Fehler zu achten.

Robots.txt-Datei und Robot-Ausnahmestandard

Alle Suchmaschinen verstehen Anweisungen, die in einer speziellen Datei gemäß dem Robot-Ausschlussstandard geschrieben sind. Zu diesem Zweck wird eine normale Textdatei namens robots.txt verwendet, die sich im Stammverzeichnis der Site befindet. Bei korrekter Platzierung kann der Inhalt dieser Datei auf jeder Website angezeigt werden, indem einfach /robots.txt nach der Domain-Adresse hinzugefügt wird. Zum Beispiel, .

Anweisungen für Roboter ermöglichen es Ihnen, das Scannen von Dateien/Verzeichnissen/Seiten zu verbieten, die Häufigkeit des Zugriffs auf die Site zu begrenzen, einen Spiegel und eine XML-Karte festzulegen. Jede Anweisung wird in einer neuen Zeile im folgenden Format geschrieben:

[Anweisung]: [Wert]

Die gesamte Direktivenliste ist in Abschnitte (Einträge) unterteilt, die durch eine oder mehrere Leerzeilen getrennt sind. Ein neuer Abschnitt beginnt mit einer oder mehreren Benutzeragentenanweisungen. Der Eintrag muss mindestens eine User-Agent- und eine Disallow-Anweisung enthalten.

Text nach dem #-Symbol (Hash) gilt als Kommentar und wird von Suchrobotern ignoriert.

User-Agent-Anweisung

Benutzeragent– Die erste Direktive in diesem Abschnitt gibt die Namen der Roboter an, für die die folgenden Regeln gedacht sind. Das Sternchen im Wert bezeichnet einen beliebigen Namen, es ist nur ein Abschnitt mit Anweisungen für alle Roboter zulässig. Beispiel:

# Anweisungen für alle Roboter User-Agent: * ... # Anweisungen für Yandex-Roboter User-Agent: Yandex ... # Anweisungen für Google-Roboter User-Agent: Googlebot ...

Direktive nicht zulassen

Nicht zulassen– eine grundlegende Anweisung, die das Scannen von URLs/Dateien/Verzeichnissen verbietet, deren Namen ganz oder teilweise mit den nach dem Doppelpunkt angegebenen Namen übereinstimmen.

Erweiterte Suchroboter wie Yandex und Google verstehen das Sonderzeichen * (Sternchen), das eine beliebige Zeichenfolge bezeichnet. Es ist nicht ratsam, die Ersetzung in einem Abschnitt für alle Roboter zu verwenden.

Beispiele für die Disallow-Anweisung:

# leerer Wert ermöglicht das Crawlen aller Dateien und/oder Verzeichnisse, die mit den Zeichen „wp-“ beginnen. User-agent: * Disallow: : /wp- # verbietet das Scannen von Dateien page-1.php, page-vasya.php, page- news-345.php # Anstelle von * kann eine beliebige Zeichenfolge verwendet werden. User-Agent: * Disallow: /page-*.php

Richtlinie zulassen (inoffiziell)

Erlauben Ermöglicht das Scannen bestimmter Ressourcen. Offiziell ist diese Direktive nicht im Robot-Ausnahmestandard enthalten, daher ist es nicht ratsam, sie im Abschnitt für alle Robots (User-Agent: *) zu verwenden. Ein hervorragendes Anwendungsbeispiel besteht darin, das Crawlen von Ressourcen aus einem Verzeichnis zu ermöglichen, dessen Indizierung zuvor durch die Disallow-Direktive verboten war:

# verbietet das Scannen von Ressourcen, die mit /catalog # beginnen, erlaubt aber das Scannen der Seite /catalog/page.html. Benutzeragent: Yandex Nicht zulassen: /catalog Erlauben: /catalog/page.html

Sitemap (inoffiziell)

Sitemap– eine Anweisung, die die Sitemap-Adresse im XML-Format angibt. Auch diese Direktive ist nicht im Ausnahmestandard beschrieben und wird nicht von allen Robots unterstützt (funktioniert für Yandex, Google, Ask, Bing und Yahoo). Sie können eine oder mehrere Karten angeben – alle werden berücksichtigt. Kann nach einer Leerzeile ohne User-Agent verwendet werden. Beispiel:

# eine oder mehrere Karten im XML-Format, die vollständige URL wird angezeigt. Sitemap: http://sitename.com/sitemap.xml Sitemap: http://sitename.com/sitemap-1.xml

Host-Anweisung (nur Yandex)

Gastgeber– eine Anweisung für den Yandex-Roboter, die den Hauptspiegel der Website angibt. Das Thema Spiegel kann in der Yandex-Hilfe genauer untersucht werden. Diese Anweisung kann entweder im Abschnitt für Yandex-Roboter oder als separater Eintrag ohne Benutzeragenten angegeben werden (die Anweisung ist querschnittlich und wird in jedem Fall von Yandex berücksichtigt und von anderen Robotern ignoriert). Wenn Host in einer Datei mehrmals angegeben wird, wird nur der erste berücksichtigt. Beispiele:

# Geben Sie den Hauptspiegel im Abschnitt für Yandex an. Benutzeragent: Yandex Disallow: Host: Sitename.com # Hauptspiegel für eine Site mit einem SSL-Zertifikat Benutzeragent: Yandex Disallow: Host: https://sitename.com # oder separat ohne User-Agent nach der Leerzeile Host: sitename.com

Andere Richtlinien

Yandex-Roboter verstehen auch die Anweisungen Crawl-delay und Clean-param. Weitere Informationen zu ihrer Verwendung finden Sie in der Hilfedokumentation.

Roboter, robots.txt-Anweisungen und Suchmaschinenindex

Bisher folgten Suchroboter den robots.txt-Anweisungen und fügten dem Index keine dort „verbotenen“ Ressourcen hinzu.

Heute ist alles anders. Wenn Yandex die in der Robots-Datei verbotenen Adressen gehorsam aus dem Index ausschließt, verhält sich Google völlig anders. Er wird auf jeden Fall ihren Index hinzufügen, aber die Suchergebnisse werden die Aufschrift „ Die Webseitenbeschreibung ist aufgrund von Einschränkungen in der robots.txt-Datei nicht verfügbar..

Warum fügt Google dem Index Seiten hinzu, die in robots.txt verboten sind?

Die Antwort liegt in einem kleinen Google-Trick. Wenn Sie die Webmaster-Hilfe sorgfältig lesen, wird alles mehr als klar:

Google berichtet schamlos, dass Anweisungen in robots.txt Empfehlungen und keine direkten Handlungsanweisungen seien.

Das bedeutet, dass der Roboter die Anweisungen berücksichtigt, aber dennoch auf seine eigene Art und Weise handelt. Und er kann eine Seite zum Index hinzufügen, die in robots.txt verboten ist, wenn er auf einen Link dazu stößt.

Das Hinzufügen einer Adresse zu robots.txt garantiert nicht, dass diese aus dem Suchmaschinenindex von Google ausgeschlossen wird.

Google-Index + falsche robots.txt = DUPLIKATE

Fast jeder Leitfaden im Internet besagt, dass das Schließen von Seiten in robots.txt deren Indexierung verhindert.

Das war schon früher der Fall. Aber wir wissen bereits, dass ein solches Schema heute für Google nicht funktioniert. Und noch schlimmer ist, dass jeder, der solchen Empfehlungen folgt, einen großen Fehler macht: Geschlossene URLs landen im Index und werden als Duplikate markiert, der Anteil doppelter Inhalte steigt stetig und früher oder später wird die Seite vom Panda-Filter abgestraft.

Google bietet zwei wirklich praktikable Möglichkeiten, eine Website aus seinem Ressourcenindex auszuschließen:

Schließen mit einem Passwort(gilt für Dateien wie .doc, .pdf, .xls und andere)
Hinzufügen eines Robots-Meta-Tags mit dem Noindex-Attribut V (gilt für Webseiten):

Das Wichtigste, was es zu beachten gilt:

Wenn Sie das obige Meta-Tag zu einer Webseite hinzufügen, die die Indizierung verbietet und zusätzlich das Crawlen derselben Seite in robots.txt verbietet, Dann kann der Google-Roboter das verbotene Meta-Tag nicht lesen und fügt die Seite dem Index hinzu!
(deshalb schreibt er in den Suchergebnissen, dass die Beschreibung in robots.txt eingeschränkt ist)

Weitere Informationen zu diesem Problem finden Sie in der Google-Hilfe. Und hier gibt es nur eine Lösung: Öffnen Sie den Zugriff auf robots.txt und konfigurieren Sie ein Verbot der Indexierung von Seiten mithilfe eines Meta-Tags (oder eines Kennworts, wenn es um Dateien geht).

Robots.txt-Beispiele für WordPress

Wenn Sie den vorherigen Abschnitt sorgfältig lesen, wird das klar Heutzutage sollten Sie kein übermäßiges Verbot von Adressen in robots.txt praktizieren, zumindest für Google. Es ist besser, die Seitenindizierung über das Robots-Meta-Tag zu verwalten.

Hier ist die banalste und gleichzeitig völlig korrekte robots.txt für WordPress:

Benutzeragent: * Nicht zulassen: Host: sitename.com

Überrascht? Natürlich! Alles Geniale ist einfach :) Auf westlichen Ressourcen, wo es kein Yandex gibt, beschränken sich Empfehlungen zum Kompilieren von robots.txt für WordPress auf die ersten beiden Zeilen, wie die Autoren von WordPress SEO von Yoast zeigen.

Ein richtig konfiguriertes SEO-Plugin kümmert sich um kanonische Links und das Robots-Meta-Tag mit dem Wert noindex, und die Admin-Seiten sind passwortgeschützt und müssen nicht für die Indizierung gesperrt werden (die einzige Ausnahme können die Anmelde- und Registrierungsseiten sein). der Website – stellen Sie sicher, dass sie über ein Robots-Meta-Tag mit dem Wert „noindex“ verfügen). Es ist besser, eine Sitemap manuell im Suchmaschinen-Webmaster hinzuzufügen und gleichzeitig darauf zu achten, dass sie richtig gelesen wird. Das Einzige, was für RuNet noch wichtig ist, ist die Angabe des Hauptspiegels für Yandex.

Eine weitere Option, geeignet für weniger Wagemutige:

Benutzeragent: * Nicht zulassen: /wp-admin Host: sitename.com Sitemap: http://sitename.com/sitemam.xml

Der erste Abschnitt verbietet die Indizierung des wp-admin-Verzeichnisses und seines Inhalts für alle Robots. Die letzten beiden Zeilen zeigen einen Site Mirror für den Yandex-Roboter und eine Sitemap an.

Bevor Sie Ihre robots.txt ändern...

Wenn Sie sich entscheiden, die Anweisungen in robots.txt zu ändern, dann kümmern Sie sich zunächst um drei Dinge:

Stellen Sie sicher, dass sich im Stammverzeichnis Ihrer Website keine zusätzlichen Dateien oder Verzeichnisse befinden, deren Inhalte vor dem Scannen verborgen bleiben sollen (dies können persönliche Dateien oder Medienressourcen sein);
Einschalten kanonische Links in Ihrem SEO-Plugin (dadurch werden URLs mit Abfrageparametern wie ausgeschlossen). http://sitename.com/index.php?s=word)
Aufstellen Robots-Meta-Tag-Ausgabe mit Bedeutung kein Index auf Seiten, die Sie vor der Indizierung ausblenden möchten (für WordPress sind dies Archive nach Datum, Tag, Autor und Paginierungsseiten). Dies kann für einige Seiten in den Einstellungen von SEO-Plugins erfolgen (All In One SEO hat unvollständige Einstellungen). Oder zeigen Sie es selbst mit einem speziellen Code an: /* ====================================== =================== ============================= = * Fügen Sie Ihre hinzu * ============================================== ================ ========================= */ function my_meta_noindex () ( if ( //is_archive() ODER // beliebige Archivseiten – für einen Monat, für ein Jahr, nach Kategorie, nach Autor //is_category() ODER // Archive von Kategorien is_author() ODER // Archive von Artikeln nach Autor is_time() ODER // Artikelarchive nach Zeit is_date() ODER // Artikelarchive nach beliebigem Datum is_day() ODER // Artikelarchive nach Tag is_month() ODER // Artikelarchive nach Monat is_year() ODER // Artikelarchive nach Jahr is_tag() ODER // Archiv der Artikel nach Tag is_tax() ODER // Archiv der Artikel für eine benutzerdefinierte Taxonomie is_post_type_archive () ODER // Archive für einen benutzerdefinierten Beitragstyp //is_front_page() ODER // statische Homepage / /is_home() ODER // Hauptblogseite mit den neuesten Beiträgen //is_singular() ODER // beliebige Beitragstypen – einzelne Beiträge, Seiten, Anhänge usw. //is_single() ODER // jeder einzelne Beitrag jeglicher Art Beitrag (außer Anhänge und Seiten) //is_page() ODER // jede einzelne Seite („Seiten“ im Admin-Panel) is_attachment() ODER // jede Anhangsseite is_paged() ODER // alle Seiten mit Seitennummerierung is_search() // Ergebnisseiten der Website-Suche) ( echo „“.“ "."\n"; ) ) add_action("wp_head", "my_meta_noindex", 3); /* ========================= =============================================== =============== */
In Zeilen, die mit // beginnen, wird das Meta-Tag nicht angezeigt (jede Zeile beschreibt, für welche Seite die Regel gedacht ist). Durch Hinzufügen oder Entfernen von zwei Schrägstrichen am Anfang einer Zeile können Sie steuern, ob das Robots-Meta-Tag auf einer bestimmten Seitengruppe angezeigt wird oder nicht.

Kurz gesagt, was in robots.txt zu schließen ist

Beim Einrichten der Robots-Datei und der Indexierung von Seiten müssen Sie zwei wichtige Punkte beachten, die alles an seinen Platz bringen:

Verwenden Sie die Datei robots.txt, um den Zugriff auf Serverdateien und -verzeichnisse zu steuern. Die robots.txt-Datei fungiert als elektronisches Schild „Zutritt verboten: Privatgebiet“

Verwenden Sie das Robots-Meta-Tag, um zu verhindern, dass Inhalte in Suchergebnissen angezeigt werden. Wenn eine Seite über ein Robots-Meta-Tag mit einem Noindex-Attribut verfügt, schließen die meisten Robots die gesamte Seite aus den Suchergebnissen aus, selbst wenn andere Seiten darauf verlinken.