nntp2http.com
Posting
Suche
Optionen
Hilfe & Kontakt

Re: Suchmaschinen und robots.txt

Von: Uwe Schröder (usch2000@nurfuerspam.de) [Profil]
Datum: 17.04.2008 21:32
Message-ID: <4807A5D7.10606@office-2.ohrbelag.de>
Newsgroup: de.comm.infosystems.suchmaschinen
Karl-Heinz Huber wrote:

> User-agent: *
> Allow: /Linkxy.html/

"Allow" gibt es im robots.txt-Standard nicht. Alles, was nicht
ausdrücklich "Disallow"ed ist, ist ja eh automatisch erlaubt.

Google wertet "Allow" zwar aus, aber nur, um Unterverzeichnisse
freizugeben, obwohl das übergeordnete Verzeichnis eigentlich verboten
ist. Wenn es oben also keinen Eintrag "Disallow: /" gibt, um das
Hauptverzeichnis zu sperren, dürften die "Allow"-Einträge reichlich
unsinnig sein. Anderen Crawlern ist "Allow:" AFAIK eh völlig schnurz.

Außerdem bezweifle ich (unbewiesen), daß mehrfache "User-Agent: *"-
Einträge ausgewertet werden. Wahrscheinlich findet der Crawler den
ersten "User-Agent: *"-Eintrag, stellt fest, daß er nur eine Zeile
enthält, und beendet die Bearbeitung dann.

Und drittens: Ist "/Linkxy.html/" wirklich ein *Verzeichnis*? Wenn
nein, ist der Eintrag wegen des abschließenden Schrägstrichs definitiv
wirkungslos.

> die Seiten sind bis auf den Namen identisch und haben alle den gleichen
> Inhalt, nämlich wiederum alle Links zu den anderen Seiten

Oh. Das gibt aber vermutlich Strafpunkte. Weg mit den Doubletten.

> Ich persönlich hätte mich mehr auf die Meta-Einträge und unsichtbare
Labels
> in der Index.php konzentriert.

Wozu, was soll der Quatsch? Wenn die Seiten sinnvolle *sichtbare*
Inhalte haben, werden die schon gefunden.

> Des weiteren indizieren die Suchmaschinen fleissig Subdirektories, in denen
> Frameinhalte liegen.:-(
>
> Lässt sich das verlässlich über disallow verbieten?

Dafür ist die robots.txt gedacht :)

usch

[ Auf dieses Posting antworten ]