Skip navigation.
Home
Semantic Software Lab
Concordia University
Montréal, Canada

Text Mining: Wissensgewinnung aus natürlichsprachigen Dokumenten

Printer-friendly versionPrinter-friendly versionPDF versionPDF version
TitleText Mining: Wissensgewinnung aus natürlichsprachigen Dokumenten
Publication TypeReport
Year of Publication2006
Refereed DesignationDoes Not Apply
EditorsWitte, R., and J. Mülle
InstitutionUniversität Karlsruhe, Fakultät für Informatik, Institut für Programmstrukturen und Datenorganisation (IPD)
Report NumberInterner Bericht 2006-5
Other NumbersISSN 1432-7864
Abstract

Das noch recht junge Forschungsgebiet Text Mining umfaßt eine Verbindung von Verfahren der Sprachverarbeitung mit Datenbank- und Informationssystemtechnologien. Es entstand aus der Beobachtung, dass ca. 85% aller Datenbankinhalte nur in unstrukturierter Form vorliegen, so dass sich die Techniken des klassischen Data Mining zur Wissensgewinnung nicht anwenden lassen. Beispiele für solche Daten sind Volltextdatenbanken mit Büchern, Unternehmenswebseiten, Archive mit Zeitungsartikeln oder wissenschaftlichen Publikationen, aber auch Ströme kontinuierlich auflaufender Emails oder Meldungen von Nachrichtenagenturen (Newswires).

Im Gegensatz zum Information Retrieval geht es beim Text Mining nicht darum, lediglich Dokumente anhand von Anfragen aufzufinden, sondern aus einem einzelnen oder einem Satz von Dokumenten neues Wissen zu gewinnen, etwa durch automatische Textzusammenfassungen, die Erkennung und Verfolgung benannter Objekte oder die Aufdeckung neuer Trends in Forschung und Industrie. Durch die ständig wachsende Zahl elektronisch verfügbarer Texte werden automatisch arbeitende Verfahren zur Bewältigung der Informationsflut immer dringender, was Text Mining zu einem sehr aktiven und auch kommerziell interessanten Forschungsgebiet macht.

Der vorliegende Bericht enthält eine Auswahl von Themen, die von Studierenden der Universität Karlsruhe im Rahmen eines Hauptseminars am IPD im Wintersemester 2004/2005 erarbeitet wurden. Sie reichen von den Grundlagen der Computerlinguistik über einzelne Algorithmen zur Sprachverarbeitung bis hin zu konkreten Anwendungen im Text Mining. Zahlreiche Literaturreferenzen zu jedem Kapitel sollen dem Leser eine weitergehende Studie der einzelnen Themen ermöglichen.

URLhttp://digbib.ubka.uni-karlsruhe.de/volltexte/1000005161
AttachmentSize
TextMining-Bericht2006.pdf2.37 MB