From: Raphael Becker (beckerra_at_rumms.uni-mannheim.de)
Date: 28. Feb 2000
Christian Weisgerber wrote:
> Raphael Becker <beckerra_at_rumms.uni-mannheim.de> wrote:
>
> > Werden diese einmal katalogisierten URLs nicht nach mehrfacher
> > Nichtverfügbarkeit aus dem Katalog gestrichen?
> Anzunehmen. Aber du hast gesagt, dass die Zugriffe von Suchmaschinen
> kommen, nicht von Benutzern mit einer Suchmaschine als Referer.
> Wenn irgendwo ein Link gesetzt ist, dann geht die Spider der
> Suchmaschine dem nach. Nur weil ein URL einmal ungültig war, heißt
> es ja nicht, dass er das bleibt.
Wollen mal hoffen, daß er ein "403" anstelle von "404" rafft und sich
in Zukuft fernhält.
> Hmm. 450..600 pro Tag?
*nochmalnachgugg*
Hmm, ich weiß nicht, wie ich auf diese Zahl gekommen bin, war ein etwa
4 Zeilen langer bash-Befehl mit vielen Greps und einem wc hintendran.
Im Januar 2000 insgesamt 2365 mal "File not found" (404).
Insgesamt 27690 Zugriffe auf "/doc/" seit 4/99
9/99: 1706 Zugriffe auf /doc
10/99: 3509 Zugriffe auf /doc
11/99: 5879 Zugriffe auf /doc
12/99: 8108 Zugriffe auf /doc
01/2000: 2183 Zugriffe auf /doc (da hatte ich eine statische Route
nach dummy0 für eine der Suchmaschinen eingerichtet)
02/2000: 6305 Zugriffe auf /doc (die route war nach einem reboot weg
und vergessen)
/doc existiert seit Sommer/99 nicht mehr.
> Links darauf gesetzt sind, deren Autor verschollen ist. Die
> Suchmaschinen folgen diesen Links natürlich auch. <Blättert im Log>
> Hier sehe ich z.B. gerade, wie Scooter (Altavista) diese Seiten
> abrufen wollte. Und etwas später die Konkurrenz von FAST.
ich habe mal alle Remote-IPs mit nem kleinen Perlscript gefiltert, die
im seit bestehen der Logfile (27.4.1999) auf nicht vorhandene Seiten
zugegriffen haben. Die IPs, die es insgesamt mehr als 50mal vergeblich
versucht haben, was zu finden, habe ich hier mal gelistet:
erste Spalte: Anzahl der 404-Error-Zugriffe
456 216.35.103.41
348 216.35.103.42
342 216.35.103.43
450 216.35.103.44
428 216.35.103.45
405 216.35.103.46
411 216.35.103.47
409 216.35.103.48
441 216.35.103.49
401 216.35.103.50
209 216.35.103.51
183 216.35.103.52
210 216.35.103.53
229 216.35.103.54
231 216.35.103.55
201 216.35.103.56
174 216.35.103.57
201 216.35.103.58
205 216.35.103.59
219 216.35.103.60
133 216.35.103.63
138 216.35.103.64
148 216.35.103.65
123 216.35.103.66
57 216.35.103.67
62 216.35.103.68
69 216.35.103.69
66 216.35.103.70
================
6949 für 216.35.103.[41-70]
224 62.172.199.20
707 62.172.199.21
717 62.172.199.22
870 62.172.199.23
679 62.172.199.24
68 195.212.44.242
63 195.20.224.73
51 209.67.247.153
513 128.177.243.155
507 194.231.42.178
67 134.155.20.115 <<= das bin ich selbst, das kommt davon, wenn man
Seiten erstellt und dann falsche URLs verlinkt :-)
Vielleicht "kennt" ja jemand diese Suchmaschinen von den IPs her ...
es sind jedenfalls diese, die sich über "robots.txt" ignorieren.
inktomisearch.com (216.35.103.*) scheint einen ganzen Cluster aufs
Netz loszulassen.
Ich hab alle IPs (bzw Ranges) auf "deny" gesetzt, was aber mein
Problem nicht 100% löst. Anstelle der "404 File not found" bekommen
diese Maschinen jetzt ein "403 Forbidden", es werden aber weiterhin
"Daten" übertragen (ca 300 Byte/Fehlermeldung). Ich glaube ich brauch
ne Firewall oder statische Routen nach "dummy" für diese Adressen.
Vielleicht kennt ja jemand noch andere bekannte Suchmaschinen bzw
deren Spider?
Für einschlägige IP-Ranges wäre ich dankbar, damit ich die gleich
vorsorglich wegfiltern kann.
Gruß
Raphael Becker
Dieses Archiv wurde generiert von hypermail 2.1.2 : 11. Mar 2002 CET