Jens Bleiholder. In 16. GI Workshop über Grundlagen von Datenbanken, Monheim, Germany, Juni 2004. (pdf, 144k)
@inproceedings{Blei04,
author = {Jens Bleiholder},
title = {Techniken des Data Merging in Integrationssystemen},
booktitle = {Tagungsband zum 16. Workshop "Grundlagen von Datenbanken"},
year = {2004},
editor = {Mireille Samia and Stefan Conrad},
pages = {23--27},
address = {Monheim},
month = {Juni}
}
Die Integration von Daten aus heterogenen Informationsquellen ist ein bekanntes Forschungsthema im Datenbankbereich. Bei der Integration treten drei verschiedene Arten der Heterogenität auf: Technische Heterogenität bezeichnet die Heterogenität auf Plattform- und Formatebene. Strukturelle Heterogenität bezeichnet die Heterogenität auf Schemaebene. Diese tritt auf, wenn gleiche Domänen unterschiedlich modelliert werden. In letzter Zeit tritt verstärkt semantische Heterogenität, die sich mit den Daten und deren Bedeutung befasst, als Forschungsthema in den Vordergrund.
Im Rahmen des HumMer-Systems zur Integration heterogener Informationsquellen wird semantische Heterogenität auf Datenebene betrachtet. Unterschiedliche Informationsquellen können sowohl sich ergänzende als auch widersprüchliche Daten über gleiche Objekte enthalten. Wie solche Konflikte in Daten automatisch und sinnvoll aufgelöst werden können, ist eine noch nicht zufriedenstellend beantwortete Fragestellung. Der Beitrag gibt einen Überblick über bereits existierende Verfahren des \emph{data merging}, wie sie in ausgewählten integrierenden Informationssystemen (z.B. TSIMMIS) angewandt werden. Desweiteren werden Techniken zur Integration genannt, die auf relationaler Algebra basieren. Zuletzt wird die Architektur des integrierenden Informationssystems HumMer (Humboldt Merger) vorgestellt. Dabei wird auf den Entwurf und die Realisierung der Data Merging Komponente näher eingegangen.