Wir entwickeln und untersuchen Verfahren, die Wissen in großen Datenbanken - oder großen Textsammlungen - entdecken und nutzbar machen. Wir analysieren Lernprobleme und beschäftigen uns mit Grundlagen, Konstruktionsprinzipien und Eigenschaften von Lernalgorithmen. Wir untersuchen Anwendungen vor allem im Information Retrieval und in der Bioinformatik.
| Aktives und
halbüberwachtes Lernen aus Texten |
Eine Herausforderung
beim
Klassifizierungslernen liegt in der effektiven Ausnutzung
unklassifizierter Beispieldaten. Wir untersuchen Verfahren, die
Klassifikatoren aus wenigen klassifizierten und vielen
unklassifizierten Beispielen lernen können. Wissenschaftliche
Veröffentlichungen und Webseiten lassen sich zusätzlich zu
ihrem Inhalt auch durch ihre Einbettung in den Verweisgraphen
charakterisieren. Multi-View-Lernverfahren können sowohl
unklassifizierte Beispiele als auch Informationen aus Verweisgraphen
effektiv zum Lernen ausnutzen. Multi-View-Verfahren basieren auf einem
elementaren Prinzip: das Fehlerrisiko einer Konsensentscheidung
mehrerer unabhängiger Entscheider ist geringer als das Risiko
eines einzelnen Entscheiders. |
| Information Retrieval: Spam-Erkennung
und Benutzerassistenz |
Wir untersuchen Anwendungen des maschinellen
Lernens auf Information-Retrieval-Probleme. Wir sehen das Filtern von
Spam-Emails als ein Spiel zwischen zwei Gegnern (Spam-Filter und
Spam-Versender), die jeweils auf die "Züge" des anderen reagieren
um einander zu überlisten. Wir suchen eine Gewinnstrategie, mit
der wir auch zukünftige Spam-Mails erkennen können. Wir untersuchen Assistenzsysteme, die Wissen aus vorhandenen Texten (z.B. in der Vergangenheit geschriebenen Emails) generieren und einen Benutzer beim zukünftigen Schreiben eines Textes oder Beantworten einer Email unterstützt. |
| Text
Mining in der Bioinformatik |
Um biologische
Modelle zu gewinnen, die etwa die Funktion bestimmter Gene vorhersagen,
müssen Informationen berücksichtigt werden, die über
zahllose wissenschaftliche Veröffentlichungen verteilt sind. Wir
untersuchen Verfahren, die relevante Informationen automatisch aus
Artikeln extrahieren und bei der Bildung von Modellen
berücksichtigen. |
| Wissensentdeckung in Datenströmen |
Zu den
Herausforderungen des maschinellen Lernens gehört die Analyse sehr
großer Datenbanken. Sampling-Verfahren können Datenbanken
verarbeiten, die so groß sind, dass es unmöglich wäre,
über alle Einträge zu iterieren, und liefern dennoch
Optimalitätsgarantien. Wir beschäftigen uns mit der Analyse
von Lernalgorithmen und der Methodik der Bewertung von Hypothesen. |