Merging Autonomous Content (MAC) ist die Vereinigung von Daten und Informationen mehrerer, autonomer Quellen zu einer einheitlichen Informationsmenge. Trotz intensiver Entwicklung und Untersuchung integrierender Informationssysteme, angefangen mit verteilten und föderierten Datenbanksystemen, über Methoden der Schemaintegration, bis hin zu Mediator-basierten Integrationsarchitekturen und Anfragesystemen existieren überraschend wenig wissenschaftliche Ergebnisse und praktische Ansätze zur Integration der Daten und Informationen selbst. Nach dem Entwurf und Aufbau eines integrierten Informationssystems wird der nächste Schritt, die eigentliche Integration der heterogenen Informationen, oft ignoriert. MAC ordnet sich in den Bereich Contentware Engineering ein und bietet ein großes Forschungspotenzial.
Eine detaillierte Beschreibung des MAC Projekts ist hier.
Das greifbare Resultat des MAC Projekts ist das Hummer
Integrationssystem, welches heterogene Informationen effizient sammelt,
qualitativ bewertet, korrekt
kombiniert, gegebenenfalls annotiert und schließlich dem
Informationssuchenden
präzis und verständlich darstellt.
The Humboldt Merger (HumMer) is an integrated information system, reading relational, XML, and unstructured data and merging it into common, structured information. Hummer serves the research group as a plattform to test the feasability, scalability, and usefulness of new ideas. It is yet under development.
Dieses Projekt befasst sich mit der Fusion von Informationen über gleiche Objekte aus Datenquellen. Informationen über gleiche Objekte aus heterogenen Datenquellen können sich sowohl ergänzen als auch widersprechen. Ziel dieses Projektes ist es, dem Nutzer eines integrierenden Informationssystems eine Spezifikation der Lösung der (möglicherweise) auftretenden Datenkonflikte zu ermöglichen. Dies geschieht durch die Erweiterung der Anfragesprache SQL um ein entsprechendes Konstrukt, die "FUSE BY"-Anweisung. Darauf aufbauend wird im Weiteren die Optimierung solcher relationaler Fusionsanfragen betrachtet.
Ein Problem der Datenintegration ist das Auftreten von verschiedenen
Datensätzen in der Zielrepräsentation,die das gleiche Objekt
beschreiben. Ziel des Projektes ist,
einen Algorithmus zu entwickeln, der solche Duplikate in XML Dokumenten
identifiziert
und eliminiert. Ein Teil der Arbeit besteht darin, existierende
Verfahren zur Objektidentifikation für Relationen auf ihre
Übertragbarkeit auf XML zu prüfen und gegebenenfalls zu
erweitern.
Ansprechpartner: Felix Naumann,
Sven Puhlmann, Melanie Weis
Web Site: http://www.informatik.hu-berlin.de/mac/dirtyxml/
Whenever there is a need to integrate data from various data sources,
certain algorithms are used that have the ability to clean the
integrated data. In order to test these algorithms one needs "dirty"
sample
data. The Dirty XML Data Generator
is a tool
written in Java that creates a dirty XML data file given a clean XML
document
and a set of parameters. According to the parameter set, the generated
data can contain errors of different type, such as duplicates and
misspellings,
and
is used to benchmark algorithms that clean nested integrated
XML data.
XStruct's most outstanding features are (i) extraction of general, complete, correct, minimal, and understandable XML Schemas, (ii) extraction of schemas from multiple documents, (iii) extraction of schemas from large documents (> 1 GB), (iv) detection of attributes of elements in the XML data, and (vi) detection of datatypes of the XML elements and attributes.
Ziel der Forschungsperspektiven ist es, Algorithmen und Datenstrukturen zu entwickeln, um große Datenbestände zu speichern und zu analysieren, und zwar unter Verwendung heterogener, verteilter Hardware- und Software-Umgebungen. Der Umgang mit semantischem Wissen und mit Fragen der Datensicherheit bilden zusätzliche Herausforderungen des Schwerpunktes. Um die neuen Konzepte existierenden und neuen Anwendungen zugänglich zu machen, werden neue Technologien, insbesondere des Grid Computing berücksichtigt.
The development of the Internet and the World Wide Web during recent
years has made it possible and useful to access many different
information systems anywhere in the world to obtain desired
information. Traditionally, access to digitized information is handled
by local, centralized information management systems, that are under
direct control of the owner, who is in most cases identical with or
within the same organization as the user. This has changed - much
information now obtained by a user is distributed and no longer under
his control: Information systems accessed through the Internet and the
WWW are locally autonomous (i) in what information they provide and
(ii) how they provide it. Content, quality, access cost and many other
parameters of these systems may differ greatly and cannot be influenced
by the user. Finally, a user typically has several similar information
sources to choose from and must decide which ones to query. We address
the problem of querying multiple autonomous and heterogeneous
information sources and delivering an overall satisfying answer to the
user.