Arbeitsgruppe Informationsintegration | Information Integration Group

MAC: Merging Autonomous Content

Projektdetails

Merging Autonomous Content (MAC) ist die Vereinigung von Daten und Informationen mehrerer, autonomer Quellen zu einer einheitlichen Informationsmenge. Trotz intensiver Entwicklung und Untersuchung integrierender Informationssysteme, angefangen mit verteilten und föderierten Datenbanksystemen [SL90], über Methoden der Schemaintegration [BLN86], bis hin zu Mediator-basierten Integrationsarchitekturen [Wie92] und Anfragesystemen [Nau02] existieren überraschend wenig wissenschaftliche Ergebnisse und praktische Ansätze zur Integration der Daten und Informationen selbst. Nach dem Entwurf und Aufbau eines integrierten Informationssystems wird der nächste Schritt, die eigentliche Integration der heterogenen Informationen, oft ignoriert (see anecdotal evidence). MAC ordnet sich in den Bereich Contentware Engineering ein und bietet ein großes Forschungspotenzial.

Das greifbare Resultat des MAC Projekts ist ein Integrationssystem, welches heterogene Informationen effizient sammelt, qualitativ bewertet, korrekt kombiniert, gegebenenfalls annotiert und schließlich dem Informationssuchenden präzis und verständlich darstellt. Die Entwicklung eines Systems zur effektiven Informationsintegration verlangt die Lösung folgender, noch offener oder nur unbefriedigend gelöster Teilprobleme:
1. Identifikation:
Nach Erhalt von Informationen mehrerer Quellen, muß entschieden werden, welche dieser Informationen gleiche Konzepte beschreiben und somit integriert werden können. Ist jede Information mit einem global konsistenten Schlüssel versehen, ist die Entscheidung einfach: Informationen mit gleichem Schlüssel können integriert werden. In Ermangelung eines Schlüssels werden Methoden der Objektidentifikation verwendet. Obwohl bereits viele Methoden für konkrete Domänen existieren, z.B. für Adressdaten [HS98], ist eine allgemeine und effiziente Vorgehensweise für Informationen gleicher Domäne noch nicht bekannt.
2. Integration:
Relationale Datenbanksysteme stellen den Vereinigungsoperator (union) zur Verfügung. Dieser Operator läßt sich auf andere Datenmodelle, etwa XML Daten, und andere Datentypen, etwa Texte, erweitern. Die Vereinigung von Daten verschiedener autonomer Quellen durch union ergibt jedoch nicht immer das gewünschte Resultat: Das Ergebnis kann erstens redundante und zweitens mehrere, sich widersprechende Informationen enthalten. Eigentliche Integration ist erst erreicht, wenn beide Probleme gelöst werden. Der minimum union Operator [Gal94] entfernt redundante Daten, jedoch fehlt ein allgemeines, theoretisches Modell um Widersprüche in den Informationen zu lösen. Die Entwicklung eines neuen merge union Operators und ein zugehöriger effizienter Algorithmus versprechen die Lösung beider Probleme und bietet dem Nutzer ein einheitliches und konzises Ergebnis. Der merge union Operator integriert die gesamte Informationspannbreite moderner content-provider, von strukturierten Daten (DBMS, streaming data, etc.), über semi-strukturierte Inhalte (Online-kataloge, XML-Dokumente, etc.), bis hin zu unstrukturierten Texten (Fachartikel, product reviews, etc.).
3. Optimierung:
Die Einführung eines Integrationsoperators, wie der vorgeschlagene merge union Operator, erfordert neue Algorithmen zur Optimierung des integrierten Ergebnisses. Wegen der Autonomie der Informationsquellen kann bei der Nutzung integrierender Informationssysteme kein vollständiges und korrektes Anfrageergebnis erwartet werden. Neben der herkömmlichen Minimierung der Anfragebearbeitungszeit, kann sich ein Optimierer andere Ziele setzen, etwa die Maximierung der Vollständigkeit des Ergebnisses. Weitere Nebenbedingungen ergeben sich z.B. durch den Ausfall von Quellen, so dass sich ein Optimierer dynamisch anpassen muss.
4. Visualisierung:
Ein Integrationssystem soll Informationen aus verschiedenen Quellen einheitlich darstellen. Gleichzeitig ist es nötig, dem Nutzer dieser Informationen Angaben über deren Herkunft, deren Transformation und deren Integration zur Verfügung zu stellen. Nur so kann der Nutzer den Integrationsprozess nachvollziehen, die Informationen entsprechend nutzen und gegebenenfalls den Integrationsprozess anpassen. Neue und existierende Visualisierungmethoden sollen für dieses neue Umfeld entwickelt bzw. angepasst werden.
Die Entwicklung der genannten Komponenten und deren und Integration in einem Gesamtsystem stellt ein interessantes theoretisches Problem und eine praktische Herausforderung dar, die über bisherige Forschungsergebnisse hinausgehen. Zusammengenommen verwirklichen die Komponenten die Vision eines modernen, den heutzutage verfügbaren Informationsquellen angemessenen integrierten Informationssystems. Als prototypischer Anwendungsbreich dienen die Life Sciences. Diese Domäne vereinigt viele interessante Probleme, bietet Graduierten ein hoch-aktuelles Anwendungsfeld, und verspricht aufgrund ihres rasanten Wachstums die Verwendung der Forschungsergebnisse mittels industrieller Kooperationen. Die Humboldt Universität zu Berlin mit ihrem Campus in Adlershof bietet eine hervorragend geeignete Umgebung mit vielen Ansprechpartnern sowohl in der Informatik als auch in der Life Sciences Anwendungsdomäne.
 

References / Literaturverzeichnis

[BLN86] C. Batini, M. Lenzerini, S.B. Navathe, A Comparative Analysis of Methodologies for Database Schema Integration, ACM Computing Surveys 18(4), S. 323-364, 1986.

[Gal94]    César A. Galindo-Legaria, Outerjoins as Disjunctions, Proceedings of the ACM International Conference on Management of Data (SIGMOD), S. 348-358, Minneapolis, MA, 1994.

[HS98]    M.A. Hernández, S.J. Stolfo, Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem, Data Mining and Knowledge Discovery 2(1), S. 9-37, 1998.

[Nau02]    Felix Naumann, Quality-driven Query answering for Integrated Information Systems, Lecture Notes in Computer Sciences LNCS 2261, Springer Verlag, Heidelberg, 2002.
 
[SL90]    Amit P. Sheth and James A. Larson, Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases, ACM Computing Surveys 22(3), S. 183-236, 1990.

[Wie92]    G. Wiederhold, Mediators in the Architecture of Future Information Systems, IEEE Computer 25(3), S. 38-49, 1992.