Arbeitsgruppe Informationsintegration | Information Integration Group

Current Research Projects


MAC: Merging Autonomous Content and the HumMer (Humboldt Merger)

Funding: German Science Foundation DFG
Duration: May 2003 through April 2008
Project Members: Felix Naumann, Jens Bleiholder, Melanie Weis, Karsten Draba, Christoph Böhm
Web site: http://www.informatik.hu-berlin.de/mac/hummer/

Merging Autonomous Content (MAC) ist die Vereinigung von Daten und Informationen mehrerer, autonomer Quellen zu einer einheitlichen Informationsmenge. Trotz intensiver Entwicklung und Untersuchung integrierender Informationssysteme, angefangen mit verteilten und föderierten Datenbanksystemen, über Methoden der Schemaintegration, bis hin zu Mediator-basierten Integrationsarchitekturen und Anfragesystemen existieren überraschend wenig wissenschaftliche Ergebnisse und praktische Ansätze zur Integration der Daten und Informationen selbst. Nach dem Entwurf und Aufbau eines integrierten Informationssystems wird der nächste Schritt, die eigentliche Integration der heterogenen Informationen, oft ignoriert. MAC ordnet sich in den Bereich Contentware Engineering ein und bietet ein großes Forschungspotenzial.

Eine detaillierte Beschreibung des MAC Projekts ist hier.

Das greifbare Resultat des MAC Projekts ist das Hummer Integrationssystem, welches heterogene Informationen effizient sammelt, qualitativ bewertet, korrekt kombiniert, gegebenenfalls annotiert und schließlich dem Informationssuchenden präzis und verständlich darstellt.

The Humboldt Merger (HumMer) is an integrated information system, reading relational, XML, and unstructured data and merging it into common, structured information. Hummer serves the research group as a plattform to test the feasability, scalability, and usefulness of new ideas. It is yet under development.

Relationale Datenfusion - Zusammenführen von Daten

Ansprechpartner: Jens Bleiholder

Dieses Projekt befasst sich mit der Fusion von Informationen über gleiche Objekte aus Datenquellen. Informationen über gleiche Objekte aus heterogenen Datenquellen können sich sowohl ergänzen als auch widersprechen. Ziel dieses Projektes ist es, dem Nutzer eines integrierenden Informationssystems eine Spezifikation der Lösung der (möglicherweise) auftretenden Datenkonflikte zu ermöglichen. Dies geschieht durch die Erweiterung der Anfragesprache SQL um ein entsprechendes Konstrukt, die "FUSE BY"-Anweisung. Darauf aufbauend wird im Weiteren die Optimierung solcher relationaler Fusionsanfragen betrachtet.

Objektidentifikation in XML

Ansprechpartner: Melanie Weis

Ein Problem der Datenintegration ist das Auftreten von verschiedenen Datensätzen in der Zielrepräsentation,die das gleiche Objekt beschreiben. Ziel des Projektes ist, einen Algorithmus zu entwickeln, der solche Duplikate in XML Dokumenten identifiziert und eliminiert. Ein Teil der Arbeit besteht darin, existierende Verfahren zur Objektidentifikation für Relationen auf ihre Übertragbarkeit auf XML zu prüfen und gegebenenfalls zu erweitern.


Dirty XML Generator

Ansprechpartner: Felix Naumann, Sven Puhlmann, Melanie Weis
Web Site: http://www.informatik.hu-berlin.de/mac/dirtyxml/

Whenever there is a need to integrate data from various data sources, certain algorithms are used that have the ability to clean the integrated data. In order to test these algorithms one needs "dirty" sample data. The Dirty XML Data Generator is a tool written in Java that creates a dirty XML data file given a clean XML document and a set of parameters. According to the parameter set, the generated data can contain errors of different  type, such as duplicates and misspellings, and is used to benchmark algorithms that clean nested integrated XML data.

XQuery Generator

Ansprechpartner: Felix Naumann, Christoph Böhm, Melanie Weis
Web site (restricted): http://www.informatik.hu-berlin.de/mac/xquery/

The XQuery Generator is a graphical user interface to create XQueries based on an XML Schema.

BioFast: Efficient and seamless access to Internet accessible life sciences data sources.

Project Members: Zoe Lacroix (PI, Arizona State University); Louiqa Raschid (PI, University of Maryland); Terry Gaasterland (Collaborator, Rockefeller University); Maria Esther Vidal (Collaborator, Universidad Simon Bolivar); Felix Naumann (Humboldt University of Berlin)
Web site: www.umiacs.umd.edu/labs/CLIP/BFEnt02/

Informationssysteme der life sciences (Lebenswissenschaften) sind oft stark untereinander verlinkt: Daten über Proteine speichern Verknüpfungen zu verwandten Krankheiten, Daten über Gene verweisen auf entsprechende Fachpublikationen, usw. Im BioFast Projekt wird diese Linkstruktur qualitativ und quantitativ untersucht. Ziel ist es, Anfragen an solcherart verlinkte Informationsquellen effizienter (schnellere Ausführung) und effektiver (besseres Ergebnis) auszuführen.

System P - A Scalable Peer Data Management System

Project Members: Armin Roth, Felix Naumann, Martin Schweigert, Tobias Hübner
Web site: http://www.informatik.hu-berlin.de/mac/SystemP/

System P is a Peer Data Management System (PDMS) developed at Humboldt-Universität. Its main feature is a completeness-driven query planning algorithm that allows it to scale to very large numbers of peers.

Aladin - Almost Automatic Data Integration

Project Members: Jana Bauckmann, Ulf Leser, Felix Naumann, Veronique Tietz
Web site: http://www.informatik.hu-berlin.de/wbi/research/aladin/

Data integration in complex domains, such as the life sciences, involves either manual data curation, offering highest information quality at highest price, or follows a schema integration and mapping approach, leading to moderate information quality at a moderate price. We suggest a radically differ-ent integration approach, called ALADIN, for the life sciences application domain. The predominant feature of the ALADIN system is an architecture that allows almost automatic integration of new data sources into the system, i.e., it offers data in-tegration at almost no cost.
We suggest a novel combination of data and text mining, schema matching, and duplicate detection to combat the reduction in information quality that seems inevitable when demanding a high degree of automatism. These heuristics can also lead to the detection of previously unknown or unseen rela-tionships between objects, thus directly supporting the discovery-based work of life science research-ers. We argue that such a system is a valuable con-tribution in two areas. First, it offers challenging and new problems for database research. Second, the ALADIN system would be a valuable knowl-edge resource for life science research.

XStruct - Efficient Schema Extraction from XML Documents

Project Members: Jan Hegewald, Felix Naumann, Melanie Weis
Website: http://www.informatik.hu-berlin.de/mac/xstruct/

XStruct's most outstanding features are (i) extraction of general, complete, correct, minimal, and understandable XML Schemas, (ii) extraction of schemas from multiple documents, (iii) extraction of schemas from large documents (> 1 GB), (iv) detection of attributes of elements in the XML data, and (vi) detection of datatypes of the XML elements and attributes.


Schwerpunkt: Große Datenräume in Web-basierten Umgebungen.

Project Members: Johann-Christoph Freytag; Ulf Leser; Felix Naumann; Alexander Reinefeld
Web site: http://zope.informatik.hu-berlin.de/forschung/schwerpunkte/schwerpunktdaten

Ziel der Forschungsperspektiven ist es, Algorithmen und Datenstrukturen zu entwickeln, um große Datenbestände zu speichern und zu analysieren, und zwar unter Verwendung heterogener, verteilter Hardware- und Software-Umgebungen. Der Umgang mit semantischem Wissen und mit Fragen der Datensicherheit bilden zusätzliche Herausforderungen des Schwerpunktes. Um die neuen Konzepte existierenden und neuen Anwendungen zugänglich zu machen, werden neue Technologien, insbesondere des Grid Computing berücksichtigt.


Past Research Projects

HiQIQ: High Quality Information Querying

Funding: German Science Foundation DFG
Duration: November 2000 through Oktober 2003
Project Members: Felix Naumann
Web site: www.hiqiq.de

The development of the Internet and the World Wide Web during recent years has made it possible and useful to access many different information systems anywhere in the world to obtain desired information. Traditionally, access to digitized information is handled by local, centralized information management systems, that are under direct control of the owner, who is in most cases identical with or within the same organization as the user. This has changed - much information now obtained by a user is distributed and no longer under his control: Information systems accessed through the Internet and the WWW are locally autonomous (i) in what information they provide and (ii) how they provide it. Content, quality, access cost and many other parameters of these systems may differ greatly and cannot be influenced by the user. Finally, a user typically has several similar information sources to choose from and must decide which ones to query. We address the problem of querying multiple autonomous and heterogeneous information sources and delivering an overall satisfying answer to the user.