Apache-tee: Apache-Response zum Client abzweigen

Autor: Raphael Becker <rabe_at_shell.uugrn.org>
Datum: Mon, 30 Jul 2007 01:00:48 +0200
Hallo zusammen,

ausgehend vom Grundproblem "Webseiten indexieren" (Suchmaschine) bin ich
an den Punkt gekommen, dass man gerade auf dynamischen Seiten garnicht
regelmäßig einen Spider drüberjagen will, womöglich noch mit
Endlosschleifen wie in mediawiki, sondern ausgelieferten Content
"passiv" indexieren möchte. Zum einen beschränkt dies den zu
indexierenden Content auf real zugegriffene Seiten und darüberhinaus
ergibt sich schon durch die Häufigkeit bestimmter Zugriffe eine Art
natürliche Gewichtung.

Dabei schwebt mir folgendes Modell vor:

1) Client sendet Request an den Server, dieser loggt den Request-Header
2) Server antwortet mit einem Response an den Client und legt eine Kopie
ab.

Sowohl der Request (nur Header), als auch der Response (Header und Body)
werden unter einer eindeutigen Nummer erfasst und im Filesystem
abgespeichert (Index-Datei, hashdirs), eine Art Queue.

Ein daemon rennt ständig über diese Queue und verarbeitet die
Informationen nach bestimmten Regeln, füllt einen Volltext-Index für
komplette Seiteninhalte, aber auch kleinere Indizes für
Meta-Informationen, Content-Types, URL-Bestandteile etc und eine Statistik 
über die Häufigkeit bestimmter Zugriffe (Gewichtung). 

Was genau der daemon mit den geloggten Daten anstellt, ist das
Folgeproblem. Primär suche ich erstmal nach der Möglichkeit, einen
entsprechenden Apache-Handler zu bekommen, der mir solche Daten
mitloggt. Im Grunde ist es nicht viel anderes als ein aufgebohrter
Log-Handler.

Gibt es da was fertgies, vielleicht auch generische Schnittstellen, mit
der man entsprechende Daten irgendwo rein"pipe"n kann?

Ideen dazu?

Gruß
Raphael


-- 
http://mailman.uugrn.org/mailman/listinfo/uugrn


Empfangen am 30.07.2007

Dieses Archiv wurde generiert von hypermail 2.2.0 : 30.07.2007 CEST