From: Till Baumgaertel (till.baumgaertel_at_epost.de)
Date: 28. Apr 2001
> Hat jemand eine Idee fuer folgendes: Ich will 2 Texte miteinander auf
> Ähnlichkeit/Identität vergleichen, wobei der eine Text als echter Text
> (z.B. in Form eines Usenet-Artikels) vorliegt, der 2. Text aus einer
> relativ komplexen Datenbank-Struktur kommt.
schau dir mal den "soundex"-algorithmus an (ist ganz einfach).
der berechnet zu einem word den "soundex"-wert. ein, wenn ich richtig erinnere,
4-stelliger string.
der macht z.b. aus
maier->m123
meier->m123
mayer->m123
meyer->m123
müller->m677
vielleicht gelingt es duir, den algorithmus für komplette texte entsprechend zu
erweitern.
cu
till
p.s.: obwohl simpel ist soubndex unglaublich leistungsfähig!
bei bedarf kann ich nen brauchbaren link raussuchen.
-- "I have seen things you people wouldn't believe. Attack-ships on fire off the shoulder of Orion. I watched seabeams glitter in the dark near the Tannhauser gate. All those moments will be lost in time like tears in rain. Time to die." (Roy)
Dieses Archiv wurde generiert von hypermail 2.1.2 : 11. Mar 2002 CET