Arbeitsgruppe Informationsintegration
|
Information Integration Group
MAC: Merging Autonomous Content
Projektdetails
Merging Autonomous Content (MAC) ist die Vereinigung von Daten und Informationen
mehrerer, autonomer Quellen zu einer einheitlichen Informationsmenge. Trotz
intensiver Entwicklung und Untersuchung integrierender Informationssysteme,
angefangen mit verteilten und föderierten Datenbanksystemen [SL90],
über Methoden der Schemaintegration [BLN86], bis hin zu Mediator-basierten
Integrationsarchitekturen [Wie92] und Anfragesystemen [Nau02] existieren
überraschend wenig wissenschaftliche Ergebnisse und praktische Ansätze
zur Integration der Daten und Informationen selbst. Nach dem Entwurf und
Aufbau eines integrierten Informationssystems wird der nächste Schritt,
die eigentliche Integration der heterogenen Informationen, oft ignoriert (see anecdotal evidence).
MAC ordnet sich in den Bereich Contentware Engineering ein und bietet ein
großes Forschungspotenzial.
Das greifbare Resultat des MAC Projekts ist ein Integrationssystem, welches
heterogene Informationen effizient sammelt, qualitativ bewertet, korrekt
kombiniert, gegebenenfalls annotiert und schließlich dem Informationssuchenden
präzis und verständlich darstellt. Die Entwicklung eines Systems
zur effektiven Informationsintegration verlangt die Lösung folgender,
noch offener oder nur unbefriedigend gelöster Teilprobleme:
1. Identifikation:
Nach Erhalt von Informationen mehrerer Quellen, muß entschieden werden,
welche dieser Informationen gleiche Konzepte beschreiben und somit integriert
werden können. Ist jede Information mit einem global konsistenten Schlüssel
versehen, ist die Entscheidung einfach: Informationen mit gleichem Schlüssel
können integriert werden. In Ermangelung eines Schlüssels werden
Methoden der Objektidentifikation verwendet. Obwohl bereits viele Methoden
für konkrete Domänen existieren, z.B. für Adressdaten [HS98],
ist eine allgemeine und effiziente Vorgehensweise für Informationen
gleicher Domäne noch nicht bekannt.
2. Integration:
Relationale Datenbanksysteme stellen den Vereinigungsoperator (union) zur
Verfügung. Dieser Operator läßt sich auf andere Datenmodelle,
etwa XML Daten, und andere Datentypen, etwa Texte, erweitern. Die Vereinigung
von Daten verschiedener autonomer Quellen durch union ergibt jedoch nicht
immer das gewünschte Resultat: Das Ergebnis kann erstens redundante
und zweitens mehrere, sich widersprechende Informationen enthalten. Eigentliche
Integration ist erst erreicht, wenn beide Probleme gelöst werden. Der
minimum union Operator [Gal94] entfernt redundante Daten, jedoch fehlt ein
allgemeines, theoretisches Modell um Widersprüche in den Informationen
zu lösen. Die Entwicklung eines neuen merge union Operators und ein
zugehöriger effizienter Algorithmus versprechen die Lösung beider
Probleme und bietet dem Nutzer ein einheitliches und konzises Ergebnis. Der
merge union Operator integriert die gesamte Informationspannbreite moderner
content-provider, von strukturierten Daten (DBMS, streaming data, etc.),
über semi-strukturierte Inhalte (Online-kataloge, XML-Dokumente, etc.),
bis hin zu unstrukturierten Texten (Fachartikel, product reviews, etc.).
3. Optimierung:
Die Einführung eines Integrationsoperators, wie der vorgeschlagene
merge union Operator, erfordert neue Algorithmen zur Optimierung des integrierten
Ergebnisses. Wegen der Autonomie der Informationsquellen kann bei der Nutzung
integrierender Informationssysteme kein vollständiges und korrektes
Anfrageergebnis erwartet werden. Neben der herkömmlichen Minimierung
der Anfragebearbeitungszeit, kann sich ein Optimierer andere Ziele setzen,
etwa die Maximierung der Vollständigkeit des Ergebnisses. Weitere Nebenbedingungen
ergeben sich z.B. durch den Ausfall von Quellen, so dass sich ein Optimierer
dynamisch anpassen muss.
4. Visualisierung:
Ein Integrationssystem soll Informationen aus verschiedenen Quellen einheitlich
darstellen. Gleichzeitig ist es nötig, dem Nutzer dieser Informationen
Angaben über deren Herkunft, deren Transformation und deren Integration
zur Verfügung zu stellen. Nur so kann der Nutzer den Integrationsprozess
nachvollziehen, die Informationen entsprechend nutzen und gegebenenfalls
den Integrationsprozess anpassen. Neue und existierende Visualisierungmethoden
sollen für dieses neue Umfeld entwickelt bzw. angepasst werden.
Die Entwicklung der genannten Komponenten und deren und Integration in
einem Gesamtsystem stellt ein interessantes theoretisches Problem und eine
praktische Herausforderung dar, die über bisherige Forschungsergebnisse
hinausgehen. Zusammengenommen verwirklichen die Komponenten die Vision eines
modernen, den heutzutage verfügbaren Informationsquellen angemessenen
integrierten Informationssystems. Als prototypischer Anwendungsbreich dienen
die Life Sciences. Diese Domäne vereinigt viele interessante Probleme,
bietet Graduierten ein hoch-aktuelles Anwendungsfeld, und verspricht aufgrund
ihres rasanten Wachstums die Verwendung der Forschungsergebnisse mittels
industrieller Kooperationen. Die Humboldt Universität zu Berlin mit
ihrem Campus in Adlershof bietet eine hervorragend geeignete Umgebung mit
vielen Ansprechpartnern sowohl in der Informatik als auch in der Life Sciences
Anwendungsdomäne.
References / Literaturverzeichnis
[BLN86] C. Batini, M. Lenzerini, S.B. Navathe, A Comparative Analysis of
Methodologies for Database Schema Integration, ACM Computing Surveys 18(4),
S. 323-364, 1986.
[Gal94] César A. Galindo-Legaria, Outerjoins as
Disjunctions, Proceedings of the ACM International Conference on Management
of Data (SIGMOD), S. 348-358, Minneapolis, MA, 1994.
[HS98] M.A. Hernández, S.J. Stolfo, Real-world
Data is Dirty: Data Cleansing and The Merge/Purge Problem, Data Mining and
Knowledge Discovery 2(1), S. 9-37, 1998.
[Nau02] Felix Naumann, Quality-driven Query answering
for Integrated Information Systems, Lecture Notes in Computer Sciences LNCS
2261, Springer Verlag, Heidelberg, 2002.
[SL90] Amit P. Sheth and James A. Larson, Federated Database
Systems for Managing Distributed, Heterogeneous, and Autonomous Databases,
ACM Computing Surveys 22(3), S. 183-236, 1990.
[Wie92] G. Wiederhold, Mediators in the Architecture
of Future Information Systems, IEEE Computer 25(3), S. 38-49, 1992.