Hallo zusammen, ausgehend vom Grundproblem "Webseiten indexieren" (Suchmaschine) bin ich an den Punkt gekommen, dass man gerade auf dynamischen Seiten garnicht regelmäßig einen Spider drüberjagen will, womöglich noch mit Endlosschleifen wie in mediawiki, sondern ausgelieferten Content "passiv" indexieren möchte. Zum einen beschränkt dies den zu indexierenden Content auf real zugegriffene Seiten und darüberhinaus ergibt sich schon durch die Häufigkeit bestimmter Zugriffe eine Art natürliche Gewichtung. Dabei schwebt mir folgendes Modell vor: 1) Client sendet Request an den Server, dieser loggt den Request-Header 2) Server antwortet mit einem Response an den Client und legt eine Kopie ab. Sowohl der Request (nur Header), als auch der Response (Header und Body) werden unter einer eindeutigen Nummer erfasst und im Filesystem abgespeichert (Index-Datei, hashdirs), eine Art Queue. Ein daemon rennt ständig über diese Queue und verarbeitet die Informationen nach bestimmten Regeln, füllt einen Volltext-Index für komplette Seiteninhalte, aber auch kleinere Indizes für Meta-Informationen, Content-Types, URL-Bestandteile etc und eine Statistik über die Häufigkeit bestimmter Zugriffe (Gewichtung). Was genau der daemon mit den geloggten Daten anstellt, ist das Folgeproblem. Primär suche ich erstmal nach der Möglichkeit, einen entsprechenden Apache-Handler zu bekommen, der mir solche Daten mitloggt. Im Grunde ist es nicht viel anderes als ein aufgebohrter Log-Handler. Gibt es da was fertgies, vielleicht auch generische Schnittstellen, mit der man entsprechende Daten irgendwo rein"pipe"n kann? Ideen dazu? Gruß Raphael -- http://mailman.uugrn.org/mailman/listinfo/uugrn
Dieses Archiv wurde generiert von hypermail 2.2.0 : 30.07.2007 CEST