From: Christian Weisgerber (naddy_at_mips.rhein-neckar.de)
Date: 25. Feb 2000
Raphael Becker <beckerra_at_rumms.uni-mannheim.de> wrote:
> Das bemerkenswerte daran ist, daß diese Suchmaschinen permanent
> und auch schon seit MOnaten auf Dateien zugreifen wollen, die es
> auf meinem Rechner nicht mehr gibt,
Ich würde mit Altavista nachschauen, ob jemand entsprechende Links
gesetzt hat.
> Wie kann ich Suchmaschinen aussperren?
> Wie funktioniert robots.txt (genaue Syntax)?
Eine Google-Suche nach »syntax robots.txt« führt geradewegs zu:
A Standard for Robot Exclusion
http://info.webcrawler.com/mak/projects/robots/norobots.html
> Was mach ich mit den Suchmaschinen, die sich nicht an robots.txt
> halten?
Das Problem gibt es auch bei kochbuch.unix-ag.uni-kl.de, betreut
von Patrick Koppen. Die Rezepte kommen aus einer MySQL-Datenbank,
und wenn eine Suchmaschine jetzt alle 'zigtausend indiziert,
möglichst noch mit mehreren Robots parallel, dann erzeugt das zuviel
Last. Patrick hat deshalb als erstes Link eine Robot-Falle eingebaut.
Beliebige URLs mit einem bestimmten Präfix führen zu einer Seite
mit einer Liste zufällig generierten Links, die alle wiederum diesen
Präfix haben. Ein Robot kann endlos diesen Wald zufällig erzeugter
Seiten indizieren. Manche tun das offenbar auch ein paar tausend
Seiten lang. Das macht natürlich nur Sinn, weil das dynamische
Erzeugen einer solchen Seite auf dem Roxen des Kochbuchs weniger
kostet als das Liefern eines Rezepts aus der Datenbank.
> Gibt es ne Möglichkeit eine Art "Blacklist" mit IP-Adressen und
> IP-Ranges anzulegen, wo man die Störenfriede kurzerhand von Port 80
> verbannen kann?
deny
Siehe manual/mod/mod_access.html#deny in der Apache-Anleitung.
-- Christian "naddy" Weisgerber naddy_at_mips.rhein-neckar.de
Dieses Archiv wurde generiert von hypermail 2.1.2 : 11. Mar 2002 CET