Bei meiner Erweiterung um mehrere Suchmaschinen des Wordpress-PlugIn Google-Highlite ist mir aufgefallen, daß extrem viele Feed-URL’s a la “http://www.im-web-gefunden.de/feed/” oder “http://www.im-web-gefunden.de/feed/atom/” in den Suchmaschinen vorhanden sind. Wer mal ein Beispiel sehen will, der schaue an die 2. Stelle des Suchergebnisses. [Der Suchbegriff ist natürlich Quark - aber als Demo gut.]
Jetzt kann man natürlich sagen, daß die URL auf /feed/ endet und das das keiner anklickt. Dem widerspricht aber nun das Logfile. Und noch dicker kommt es bei meiner “geliebten” T-ONLINE-Suche: gleicher Suchbegriff wiederum der 2. Treffer. Schick bei mir im XML des Feeds gelandet - nur das hier nicht mehr /feed/ in der Ziel-URL auftaucht. Und schwupp - weg ist der User.
Darauf hin habe ich mal geschaut, wie es bei anderen Blogs so aussieht: gleiches Ergebnis. Bei Blogs mit sehr vielen Postings ist es u.U. nicht so leicht die /feed/-URL’s zu treffen - aber unmöglich ist es nicht. (Wenn man eine Kombination aus Suchbegriffen der Wörter der Startseite des jeweiligen Blogs nimmt, ist die Warscheinlichkeit höher.)
Jetzt beschäftige ich mich schon seit mehreren Tagen damit, die Besucher von Suchmaschinen “zu beruhigen“, wenn die Landingpage nicht ein einzelnes Posting sondern eine der Index-Seiten ist. (s. Kommentar bei Robert [ damit es weiter funktioniert hier mal wieder Gammelfleisch und englisch ]). Der Aufwand ist aber vergebens, wenn der User auf URL’s treffen kann, die für Maschinen konzipiert sind.
So lange wie ich verhindert habe, daß alle Index- , Archiv-, Kategorie- und Tagseiten indiziert wurden, hatte ich das Problem nicht - dafür flog ich bei anderen (u.a. blogsearch.google.de) raus. Ich denke mal gleiches passiert, wenn man hinter die “feed-URLs” rel = “noindex, nofollow” schreibt.
Es geht hier nicht um das Thema Traffic um jeden Preis - sondern es geht um die 100 qualifizierten Besucher (blöde Formulierung). Und gerade da ist es ärgerlich, wenn sie auf den falschen Inhalt - insbesondere dem XML - landen.
Ich habe ziemlich lange gesucht - und nichts zu dem Thema im Web gefunden. Hat sich wirklich noch niemand damit beschäftigt? Helft mir!

am 21.12.2005 um 11:14 Uhr:
das ist bei Google (die anderen interessieren mich persönlich nicht) obersch…. ist mir auch die Tage aufgefallen, nachdem ich die WP eigene Suche durch Google Site Search ersetzt habe. Auf einmal entdecke ich das Artikel-URLs mit der /feed/ Endung. Was für eine Megaschrott! Werde daher wohl oder über die Google Search wieder rausnehmen. Aber das hilft nicht, da das große Google den gleichen Bockmist baut. Was tun also? Feed-URL zum Artikel rausnehmen? Wohl am besten?
am 22.12.2005 um 02:58 Uhr:
rel = noindex ist mir so nicht bekannt, ich kenne das nur im metatag. nofollow würde es auch tun, solange alle links nofollow enthalten. wenn googlebot nicht auch noch die google blogsuche beliefert, dann könnte man den bot auch selektiv aussperren in der robots.txt.
am 22.12.2005 um 11:18 Uhr:
@Robert
Mich persönlich interessiert eigentlich auch nur Google wirklich. Eine Lösung habe ich auch noch nicht gefunden, aber dafür Blogsearch und dem “normalen” Google mal ‘ne Mail mit dem Problem geschrieben. Blogsearch hat gleich (automatisch) geantwortet:
Na vielleicht antworten die “richtigen” Googler ja noch - aber Hoffnung habe ich nicht wirklich …
@Gerald:
Ooops - da war wohl was in den Gedanken durcheinander gekommen. Danke. Habe in dem Zusammenhang gleich mal ein bißchen zum rel - Argument und seinen Attributen gesucht und bin zu einem interessantes Ergebnis gekommen: In den W3C-Specs taucht rel=”nofollow” garnicht auf. Dafür gab es im Januar 2005 bei den W3C’lern ne richtig aufgeregte Diskussion dazu. Das Softwareprojekte (Wordpress etc.) intensiv darüber diskutiert haben, lasse ich jetzt mal außer acht. Google’s Beschreibung bei den Informationen zum GoogleBot scheint für rel=”nofollow” im Moment noch die beste Quelle.
am 22.12.2005 um 11:32 Uhr:
bleibt halt die Frage (wenn man nofollow einsetzt), ob der Blogsearch-Spider dann tatsächlich vor dem Einzel-Feed halt macht oder es ihm egal ist, weil der kein nofollow kennt. Oder aber der Blogsearch-Spider nur den zentralen Feed nutzt. Hm…
am 22.12.2005 um 22:41 Uhr:
Ich bin in der Zwischenzeit mal wieder meiner Lieblingsbeschäftigung nachgegangen und habe Logfiles “gelesen”. Blogsearch setzt keinen eigenen Robot ein - das macht der Googlebot mal so ebend mit. Und der nimmt natürlich alle Feeds. Allerdings ist der Traffic der über Blogsearch reinkommt sehr gering. Das kann sich aber u.U. schnell ändern und ist sicherlich bei anderen Blogs bedeutend mehr. Dumm, daß die Leute von Google nicht auf die Mail antworten …
Nebenbei ist mir aufgefallen, daß es bei Blogsearch nichts von mir aus der Zeit der Nichtindizierung der Indexseite gibt:
blogurl:www.im-web-gefundn.de - dann nach Datum sortiert. Heißt also: Rückwärts wird nicht indiziert - wie auch in den FAQs beschrieben. In den FAQ steht zwar was zu nofollow und noindex in den META’s und der robots.txt - aber das ist das Gleiche, was auch für ‘ne normale Webseite zutrifft. Fazit: Momentan gibt es wohl keine Möglichkeit es richtig auseinander zu halten. Entweder man entscheidet sich für Blogsearch und hat dann Feeds in den normalen Suchergebnissen oder verzichtet auf Blogsearch und ist im normalen Index “Feed-frei”.
am 27.12.2005 um 08:19 Uhr:
Feed-URL-Aufrufe aus Suchmaschinen umleiten
Manchmal sind die Lösungen für Probleme so nah, daß einen erst andere darauf stoßen müssen. So auch beim Problem mit den Feed-URL’s in Suchmaschinen: Es ging darum, daß Besucher in Suchmaschinen auch die dort vorhan…
am 22.11.2006 um 09:52 Uhr:
Sollte da nicht eine Zeile in robots.txt helfen, die da lautet
Disallow:/*feed$
am 23.11.2006 um 19:02 Uhr:
@Andreas:
Ich habe mal den Verschreiber rausgenommen.
Dein Vorschlag wird so nicht gehen, da die robots.txt keine Schreibweise a la .htaccess erlaubt. Und selbst wenn man es auf diese Art unterdrücken würde, hätte man wieder das Problem mit blogsearch etc. Vielleicht spendieren die Suchmaschinenbetreiber ihren Feed-Bots doch mal einen eigenen Namen …