nntp2http.com
Posting
Suche
Optionen
Hilfe & Kontakt

Klassifikation von Texten

Von: Danny Gerst (dannygerst@gmx.de) [Profil]
Datum: 24.08.2007 11:28
Message-ID: <fam8cc$513$03$1@news.t-online.com>
Newsgroup: de.comp.lang.java de.sci.informatik.ki
Hallo @all!

Ich suche nach einer Möglichkeit Texte aus Feeds, Webseiten,
FullTextIndezies automatisch zu klassifizieren und kategorisieren.

Statisch kann ich die Text grob in Kategorien einteilen, bspw. Texte aus
Quelle 1 enthält Börsennachrichten, die Quelle 2 enthält Nachrichten
über Software und Quelle 3 enthält Stellenanzeigen.

Mit Hilfe eines Entscheidungsbaums würde ich die Texte in Kategorien
einteilen.
Ein Beispiel Börsennachrichten:

Ist Text 1 Analystenbericht
-> ja (Welche Agentur? Über welchen Wert wird berichtet?)
Ist der Bericht positiv
-> ja (Welcher Wert war ursprünglich angenommen? Welcher Wert wird
jetzt angenommen)
-> nein
Ist der Bericht negativ
-> ja (Welcher Wert war ursprünglich angenommen? Welcher Wert wird
jetzt angenommen)

Oder die Softwarenachrichten:

(Name der Software? Unternehmen?)
Ist Software OpenSource?
-> ja (Welche Programmiersprache?)
Behandelt Software GUI?
-> ja (Welche GUI?)
-> nein
Behandelt Software Persistenz?
-> ja (Framework? Datenbank?)

Bislang habe ich diese Entscheidungen auf der Basis einer Wortmenge
getroffen, dies führte allerdings sehr oft zu unzufriedenstellenden
Ergebnissen. Ich würde viel lieber eine Software haben, die ich entweder
trainieren oder so konfigurieren kann, dass sie die Entscheidungen
autonomen trifft.
Bislang habe ich einiges über das Verarbeiten von natürlicher Sprache
gelesen, weil ich dachte das wäre vllt ein guter Ansatz. Aber leider
fehlt mir die nötige Zeit mich tief in das Thema einzuarbeiten.

Deshalb meine Frage kennt jmd eine Software, Tool
(Kommerziell/OpenSource) dass diese Aufgaben übernehmen kann?

Mein Anwendung basiert auf Java (WebApplikation), deshalb wäre eine
Javalösung vorzuziehen, vor allem wenn sie OpenSource ist. Ansonsten
sollte die Lösung über eine geeignete Schnittstelle verfügen, um mit
Java angesprochen werden zu können.


Vielen Dank erst einmal,

Danny

[ Auf dieses Posting antworten ]

Antworten