From: Raphael Becker (beckerra_at_rumms.uni-mannheim.de)
Date: 27. Feb 2000
Christian Weisgerber wrote:
> > Das bemerkenswerte daran ist, daß diese Suchmaschinen permanent
> > und auch schon seit MOnaten auf Dateien zugreifen wollen, die es
> > auf meinem Rechner nicht mehr gibt,
>
> Ich würde mit Altavista nachschauen, ob jemand entsprechende Links
> gesetzt hat.
Hmm, das werde ich mal machen ...
Werden diese einmal katalogisierten URLs nicht nach mehrfacher
Nichtverfügbarkeit aus dem Katalog gestrichen?
> > Wie kann ich Suchmaschinen aussperren?
> > Wie funktioniert robots.txt (genaue Syntax)?
>
> Eine Google-Suche nach »syntax robots.txt« führt geradewegs zu:
>
> A Standard for Robot Exclusion
> http://info.webcrawler.com/mak/projects/robots/norobots.html
Danke, werd ich mir gleich mal ansehen.
> > Was mach ich mit den Suchmaschinen, die sich nicht an robots.txt
> > halten?
>
> Das Problem gibt es auch bei kochbuch.unix-ag.uni-kl.de, betreut
[snip: robot-Falle]
> kostet als das Liefern eines Rezepts aus der Datenbank.
Da mit hätte ich aber das Problem mit dem Traffic nicht gelöst. Mein
Ziel ist es ja, den Traffic durch unliebsame Suchmaschinen komplett zu
unterbinden. Die "Falle" würde ja zu immer mehr Traffic führen, denn
die ganzen "Zufallsurls" würden ja einmalig gespeichert und
anschließend immer wieder versucht aufzurufen.
Damit würde ich mein Problem ausweiten.
> > Gibt es ne Möglichkeit eine Art "Blacklist" mit IP-Adressen und
> > IP-Ranges anzulegen, wo man die Störenfriede kurzerhand von Port 80
> > verbannen kann?
>
> deny
> Siehe manual/mod/mod_access.html#deny in der Apache-Anleitung.
Das hört sich vielversprechend an.
Mal sehen, vielleicht krieg ich ja einen kleinen Perl-daemon gebacken,
der bei mehrfachem Zugriff auf eine Datei in einem nicht mehr
existenten Unterverzeichnis die Remote-IP kurzerhand sperrt. Kein
"normaler" Surfer würde "blind" versuchen wollen, auf irgendwelche
nicht mehr vorhandenen und nicht mehr verlinkten Seiten zuzugreifen.
Gruß
Raphael Becker
-- Online-Doku: http://home.pages.de/~online-doku Gesucht - Gefunden: Linux-Anleitungen Fehlt was? Dann nix wie her mit dem URL mailto:online-doku_at_gmx.de
Dieses Archiv wurde generiert von hypermail 2.1.2 : 11. Mar 2002 CET