SELECT Eintrag WHERE Eintrag zu x Prozent gleich mit einem anderen
Von: - - (ch_pingel@gmx.de) [Profil]
Datum: 23.10.2009 15:17
Message-ID: <6f04b5ee-77cf-4047-9a5a-5269cda33dba@f10g2000vbl.googlegroups.com>
Newsgroup: de.comp.datenbanken.mysql
Datum: 23.10.2009 15:17
Message-ID: <6f04b5ee-77cf-4047-9a5a-5269cda33dba@f10g2000vbl.googlegroups.com>
Newsgroup: de.comp.datenbanken.mysql
Hallo, man sieht ja ab und zu in Suchergebnissen, daß gesagt wird, daß das Ergebnis mit x Prozent Wahrscheinlichkeit oder so dem entspricht, was man gesucht hat. Kann man sowas auch mit MySQL machen ? Mein zu lösendes Problem - ich hab ne DB/Tabelle mit ner ganzen Menge (Millionen) Einträge - alles Texte (sagen wir in der Spalte Eintragstext), die durch ein Formular eingetragen wurden. Das ist aber auch das Problem - da sind auch ne Menge Spam-Einträge drin. Die möchte ich nun versuchen automatisiert zu erkennen. Ich finde schon viele, wenn ich einfach sage: SELECT Eintragstext, COUNT(Eintragstext) AS anzahl FROM Eintragstabelle GROUP BY Eintragstext HAVING anzahl>9 ORDER BY anzahl; Weil ich davon ausgehe, daß ein Spammer seine Texte mehr als einmal verbreitet wegen der Reichweite. Jetzt habe ich aber das Problem, daß manche Eintragstexte nur fast gleich sind - weil der Spammer am Ende des Textes noch eine fortlaufende Zahl rangehangen hat oder bei der Angabe der Homepage (in Spalte Eintragshomepage) an die URL der Homepage ein "x.html" wobei x eine fortlaufende Zahl ist. Wie kann ich also jetzt solche Einträge finden ? Geht das per MySQL oder muß ich mir da in Perl (daraus rufe ich die Statements auf) was einfallen lassen ? Bei der HTML Datei ginge das ja relativ einfach - allerdings müßte ich dafür sämtliche Eintrage durchgehen und die ht ml- Datei am Ende wegschmeißen - das wäre suboptimal, würde aber zur Not gehen ... geht es einfacher mit SQL ? bzw. die fortlaufende Zahl am Ende des Eintrages (zumindestens ist mir bis jetzt nur diese Variante bekannt) - dafür bräuchte ich natürlich auch noch eine sinnvolle Lösung. Als MySQL DB hab ich die Version 5.0 - das ist die neueste, die ich über das Linux-Update installieren konnte. MFG Christoph[ Auf dieses Posting antworten ]
Antworten
- Sjon (25.10.2009 14:28)
- Dominik Echterbruch (25.10.2009 19:28)
- Dieter Valicek (06.11.2009 15:06)
