Arbeitsgruppe Informationsintegration

Data Cleansing (Seminar im WS 03/04)

Prof. Felix Naumann

Mittwochs, 15-17 Uhr in RUD 25, Raum 3.113

Ausarbeitungen

Alle erstellten Ausarbeitungen (1.4MB, HU-intern) der Teilnehmer als pdf-Dokument.

Information zum Streik: Wenn Sie aufgrund des Streiks nicht zum Seminar kommen wollen, bitte ich Sie, mit vorher Bescheid zu sagen. In diesem Fall oder wenn Sie an der Teilnahme gehindert werden, werden die Vorträge in geeigneter Weise nach dem Streik nachgeholt.

Data-Cleansing Verfahren werden verwendet, um "verschmutze" Daten zu reinigen, also von Fehlern zu befreien. Schmutzige Daten enthalten Duplikate, Inkonsistenzen, veraltete Werte usw. In diesem Seminar untersuchen wir alle Aspekte des Data Cleansing: Von der Identifikation der Fehlerursachen, über einfache Transformationen (Data Scrubbing) und schnelle Algorithmen zur Duplikaterkennung, bis hin zu praktischen Anwendungen z.B. bei der Integration von Adreßdaten.

Max. 20 Teilnehmer. Bei mehr als 10 Teilnehmern werden Themen zu zweit bearbeitet.

Anmeldung: Per Email an Felix Naumann oder durch Erscheinen am ersten Termin (bei mehr als 20 Teilnehmern werden angemeldete Teilnehmer bevorzugt).


Thema
Vortragender
Termin
Betreuer
Folien
Einführung
  • "Data Cleaning: Problems and Current Approaches", Rahm & Do
Felix Naumann
22.10.2003

pdf (670kB)
Einführung in LaTeX

Felix Naumann
12.11.2003

pdf (820kB)
ACHTUNG: Es
werden Handzettel
verteilt. Ausdruck
der Folien eventl. nicht nötig.
Ähnlichkeitsmaße
  • N-Gram (z.B. N-Gram-Based Text Categorization, SDAIR-94, Cavnar and Trenkle)
  • Edit-Distance (z.B. Technique for automatically correcting words in text, ACM Computing Survey 24(4), 1992, Karen Kukich)
Anne Wegerich & Heiko Scharff
26.11.2003
Felix Naumann (link)
pdf
Data Warehouse Duplicates
Lutz Lippke
3.12.2003
Felix Naumann (link)
pdf
Merge/Purge Algorithmus
Evgeniya Ershova
10.12.2003
Felix Naumann (link)
pdf
Domain-independent Duplicate Detection
Marko Pilop & Jens Kleine
17.12.2003
Felix Naumann (link)
pdf
Achtung: Der Termin fällt leider aus!
AJAX Framework

Oliver Reichardt
7.1.2004
Felix Naumann (link)

IntelliClean
Niels Lohmann & Alexandra Julius
14.1.2004
Felix Naumann(link)
pdf (zipped, 830kB)
Potter's Wheel
Jens Bleiholder
21.1.2004

pdf (280kB)
Data Cleansing in Genome Databases
Alexander Fehr
28.1.2004
Heiko Müller (link)
pdf (Teil 1)
pdf (Teil 2)
Data Lineage, Data Provenance
Mathias Block
4.2.2004
Jens Bleiholder (link)
pdf (630kB)
Object Fusion
Lenka Ivantysynova & Sven Draband
11.2.2004
Felix Naumann (link)
pdf (2MB)

Auf Wunsch können wir einen der Termine verwenden, um zu besprechen:

Voraussetzungen für Scheinerwerb

Empfohlene Literatur:

Latex-Vorlage

Achtung: neue Vorlage!
Für die Erstellung der Hausarbeit gibt es eine Vorlage zur Verwendung mit pdflatex und latex. seminar.tar.gz oder seminar.zip