Klassifikation von Texten
Von: Danny Gerst (dannygerst@gmx.de) [Profil]
Datum: 24.08.2007 11:28
Message-ID: <fam8cc$513$03$1@news.t-online.com>
Newsgroup: de.comp.lang.java de.sci.informatik.ki
Datum: 24.08.2007 11:28
Message-ID: <fam8cc$513$03$1@news.t-online.com>
Newsgroup: de.comp.lang.java de.sci.informatik.ki
Hallo @all! Ich suche nach einer Möglichkeit Texte aus Feeds, Webseiten, FullTextIndezies automatisch zu klassifizieren und kategorisieren. Statisch kann ich die Text grob in Kategorien einteilen, bspw. Texte aus Quelle 1 enthält Börsennachrichten, die Quelle 2 enthält Nachrichten über Software und Quelle 3 enthält Stellenanzeigen. Mit Hilfe eines Entscheidungsbaums würde ich die Texte in Kategorien einteilen. Ein Beispiel Börsennachrichten: Ist Text 1 Analystenbericht -> ja (Welche Agentur? Über welchen Wert wird berichtet?) Ist der Bericht positiv -> ja (Welcher Wert war ursprünglich angenommen? Welcher Wert wird jetzt angenommen) -> nein Ist der Bericht negativ -> ja (Welcher Wert war ursprünglich angenommen? Welcher Wert wird jetzt angenommen) Oder die Softwarenachrichten: (Name der Software? Unternehmen?) Ist Software OpenSource? -> ja (Welche Programmiersprache?) Behandelt Software GUI? -> ja (Welche GUI?) -> nein Behandelt Software Persistenz? -> ja (Framework? Datenbank?) Bislang habe ich diese Entscheidungen auf der Basis einer Wortmenge getroffen, dies führte allerdings sehr oft zu unzufriedenstellenden Ergebnissen. Ich würde viel lieber eine Software haben, die ich entweder trainieren oder so konfigurieren kann, dass sie die Entscheidungen autonomen trifft. Bislang habe ich einiges über das Verarbeiten von natürlicher Sprache gelesen, weil ich dachte das wäre vllt ein guter Ansatz. Aber leider fehlt mir die nötige Zeit mich tief in das Thema einzuarbeiten. Deshalb meine Frage kennt jmd eine Software, Tool (Kommerziell/OpenSource) dass diese Aufgaben übernehmen kann? Mein Anwendung basiert auf Java (WebApplikation), deshalb wäre eine Javalösung vorzuziehen, vor allem wenn sie OpenSource ist. Ansonsten sollte die Lösung über eine geeignete Schnittstelle verfügen, um mit Java angesprochen werden zu können. Vielen Dank erst einmal, Danny[ Auf dieses Posting antworten ]
Antworten
- Heiner K?cker (24.08.2007 11:37)
- CIS (24.08.2007 12:04)
- Norbert Melzer (24.08.2007 12:22)
- Malte Spiess (24.08.2007 12:30)
- Norbert Melzer (24.08.2007 18:29)
- Jürgen Wille (28.08.2007 18:40)
- Steffen Ramlow (24.08.2007 12:50)
- Stephan Lukits (24.08.2007 12:59)
- Heiner K?cker (24.08.2007 13:22)
- Stephan Lukits (24.08.2007 14:56)
- Thomas Darimont (24.08.2007 14:35)
- CIS (24.08.2007 14:55)
- Wolfgang Lenhard (24.08.2007 14:50)
- CIS (24.08.2007 15:28)
- Jörg Sommer (24.08.2007 21:06)
- Ingo R. Homann (27.08.2007 08:49)
- Alles wird gut (25.08.2007 01:38)
- Joachim Pimiskern (26.08.2007 10:45)
- CIS (27.08.2007 18:25)
- Wolfgang Lenhard (27.08.2007 20:40)
- Helga Schulz (07.10.2007 23:39)
- Joachim Pimiskern (11.10.2007 10:21)
- Helga Schulz (11.10.2007 20:43)
