Arbeitsgruppe Wissensmanagement

Seminar Text Mining und Anwendungen

Steffen Bickel, Ulf Brefeld, Michael Brückner, (Tobias Scheffer)


Lehrinhalte:

Text Mining beschäftigt sich mit Algorithmen, die Wissen aus Textsammlungen gewinnen. Da über 80% aller elektronischen Daten in unstrukturierter textueller Form vorliegen, sind die Methoden des Text Mining von großer Bedeutung. In diesem Seminar wollen wir Methoden und Algorithmen des Text Mining mit Bezug zu konkreten Anwendungsbereichen erarbeiten. Anwendungsbereiche von Text Mining liegen unter anderem in Biomedizin, Dokumentenmanagement, Betrugserkennung, Web-Personalisierung, Marketing, Customer Relationship Management, Recommender Systems. Teilnehmer der Veranstaltung bereiten einen Vortrag zu einem der Themenvorschläge vor und verfassen eine schriftliche Ausarbeitung.

Die Fähigkeit sicher und verständlich Vorträge zu halten, ich sehr wichtig in Studium und Beruf. In vielen Fällen ist es wichtiger wie man etwas vorträgt, als was man vorträgt. Wir wollen diese Fähigkeit gezielt trainieren. Zum einen bekommt ihr bei dem zweiten Treffen mit uns Feedback zu euren Präsentationsfolien, zum anderen machen wir eine kurze Videoanalyse im Anschluss an jeden Vortrag. Ihr bekommt dabei von uns Tipps, wie ihr eure Vortragstechnik verbessern könnt.

Termine:

Wir treffen uns am Mittwoch den 19.10. von 17:00 bis 19:00 Uhr in Raum RUD 25, 3.113 zur  Einführung in das Thema und zur Themenvergabe. Bitte meldet euch vorher bei Goya an. Wer zur Themenvergabe nicht anwesend sein kann, sollte dies vorher mit uns absprechen.

Unser Zeitplan sieht so aus:

Material:


Vorraussichtliche Themen:


Thema
Literatur
(Achtung: Manche Links funktionieren nur, wenn ihr von HU-internen IP-Adressen zugreift und für manche benötigt ihr das in der Einführungsveranstaltung verteilte Passwort.)
Email-Spam-Filterung auf Textebene
Email-Spam-Filterung auf Graphebene
Email- und Web-Graph Mining (Social Network Mining, Community Mining)
Email Management (Email Verwaltung, Email-Beantwortung)
Named-Entity-Recognition in Biomedizinischen Texten (bitte Rücksprache mit Ulf für die evtl. Aufteilung in 2 Unterthemen)
Fact-Extraction aus Biomedizinischen Texten (Fokus auf Identifizierung von Protein-Protein Interaktionen)
Homonymerkennung - Word Sense Disambiguation
Synonymerkennung - Automatic Thesaurus Generation
Hypernymerkennung - Automatische Generierung von Begriffshierarchien
Plagiaterkennung - Authorship Attribution - Style Mining
Text Clustering fuer Websuchanfragen (z.B. www.vivisimo.com)
Webseitenranking fuer Suchanfragen anhand von Linkgraphen
Link Spam-Erkennung und -Unterdrückung
Text Mining fuer Recommender Systems
Opinion Mining
Novelty Detection / First Story Detection
Entdeckung neuer Themen in verlinkten Textdaten (WWW)
BLOG-Mining
Text Summarization
  • Da es zu diesem Thema sehr viel Literatur gibt, könnt ihr selbst festlegen, wo ihr einen Schwerpunkt legen möchtet und mit welchen Veröffentlichungen ihr euch beschäftigen möchtet. Gute Ausgangspunkte sind die folgenden Links. DUC ist ein  Summarization-Wettbewerb, bei dem jeder Teilnehmer auch seine Algorithmen veröffentlicht, wenn ihr euch da die Gewinner-Veröffentlichungen anseht, findet ihr vermutlich die State-of-the-Art-Verfahren.
  • www.summarization.com
  • Document Understanding Conferences (DUC)
  • DUC 2003 Overview
Question Answering