nntp2http.com
Posting
Suche
Optionen
Hilfe & Kontakt

SELECT Eintrag WHERE Eintrag zu x Prozent gleich mit einem anderen

Von: - - (ch_pingel@gmx.de) [Profil]
Datum: 23.10.2009 15:17
Message-ID: <6f04b5ee-77cf-4047-9a5a-5269cda33dba@f10g2000vbl.googlegroups.com>
Newsgroup: de.comp.datenbanken.mysql
Hallo,

man sieht ja ab und zu in Suchergebnissen, daß gesagt wird, daß das
Ergebnis mit x Prozent Wahrscheinlichkeit oder so dem entspricht, was
man gesucht hat.

Kann man sowas auch mit MySQL machen ?

Mein zu lösendes Problem - ich hab ne DB/Tabelle mit ner ganzen Menge
(Millionen) Einträge - alles Texte (sagen wir in der Spalte
Eintragstext), die durch ein Formular eingetragen wurden. Das ist aber
auch das Problem - da sind auch ne Menge Spam-Einträge drin. Die
möchte ich nun versuchen automatisiert zu erkennen. Ich finde schon
viele, wenn ich einfach sage:

SELECT Eintragstext, COUNT(Eintragstext) AS anzahl FROM
Eintragstabelle GROUP BY Eintragstext HAVING anzahl>9 ORDER BY anzahl;

Weil ich davon ausgehe, daß ein Spammer seine Texte mehr als einmal
verbreitet wegen der Reichweite.

Jetzt habe ich aber das Problem, daß manche Eintragstexte nur fast
gleich sind - weil der Spammer am Ende des Textes noch eine
fortlaufende Zahl rangehangen hat oder bei der Angabe der Homepage (in
Spalte Eintragshomepage) an die URL der Homepage ein "x.html" wobei x
eine fortlaufende Zahl ist.


Wie kann ich also jetzt solche Einträge finden ? Geht das per MySQL
oder muß ich mir da in Perl (daraus rufe ich die Statements auf) was
einfallen lassen ? Bei der HTML Datei ginge das ja relativ einfach -
allerdings müßte ich dafür sämtliche Eintrage durchgehen und die ht
ml-
Datei am Ende wegschmeißen - das wäre suboptimal, würde aber zur Not
gehen ... geht es einfacher mit SQL ? bzw. die fortlaufende Zahl am
Ende des Eintrages (zumindestens ist mir bis jetzt nur diese Variante
bekannt) - dafür bräuchte ich natürlich auch noch eine sinnvolle
Lösung.

Als MySQL DB hab ich die Version 5.0 - das ist die neueste, die ich
über das Linux-Update installieren konnte.


MFG
Christoph

[ Auf dieses Posting antworten ]

Antworten