Ringvorlesung
"Große Datenmengen in Web-basierten Umgebungen"

Humboldt-Universität zu Berlin
Vorlesungstermine
jeweils 15:00 Uhr c.t. in 3.001

Termin
Thema
Dozent

21.10.2004
Einführung: Große Datenmengen in Web-basierten Umgebungen

Vorstellung aktueller Themen und Trends
Prof. Johann-Christoph Freytag
Prof. Ulf Leser
Prof. Felix Naumann
Prof. Alexander Reinefeld
Humboldt-Universität zu Berlin

28.10.2004 Ein Data Warehouse-basierter Ansatz für adaptive Web Recommendations
(Folien)
Prof. Erhard Rahm
Universität Leipzig
Prof. Erhard Rahm
04.11.2004 Tree-Aware Relational Database Systems
(Folien)
PD Dr. Torsten Grust
Universität Konstanz
Torsten Grust
11.11.2004 Transaktionen im Grid-Computing
(Folien)
Prof. Norbert Ritter
Universität Hamburg
Prof. Norbert Ritter
18.11.2004 Die Nexus-Platform: Eine Infrastruktur für mobile, kontextbezogene Systeme
(Folien 4,5MB)
Prof. Bernhard Mitschang
Universität Stuttgart
Prof. Mitschang
25.11.2004 fällt leider aus


02.12.2004 Information Extraction for the Life Sciences: from Text Mining to Compound Structure Reconstruction
(Folien)
Dr. Marc Zimmermann
Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI
Dr. Marc Zimmermann
09.12.2004 Database Regression Tests
(Folien)
Prof. Donald Kossmann
ETH Zürich
Donald Kossmann
16.12.2004 Surfen auf den 'omics'-Wellen: Die Bioinformatik auf dem Weg zur Systembiologie
(Folien 6MB)
Dr. Reinhard Schneider
EMBL - European Molecular Biology Laboratory
Dr. Reinhard Schneider
23.12.2004 entfällt (Weihnachten)


31.12.2004 entfällt (Silvester)


06.01.2005 Datenbanktechnologie für skalierbare Notifikationssysteme
(Folien)
Prof. Wolfgang Lehner
Technische Universität Dresden
Prof. Wolfgang Lehner
13.01.2005 The Two Cultures of Digital Curation
(Folien)
Prof. Peter Buneman
University of Edinburgh
Prof. Peter Buneman
20.01.2005 Intelligente und effiziente Suche auf semistrukturierten Daten
(Zusammenfassung)
(Folien)
Prof. Gerhard Weikum
Max-Planck-Institut für Informatik, Saarbrücken
Prof. Gerhard Weikum
27.01.2005 Verarbeitung sehr großer Datenströme in der Physik
(Folien 4,7MB)
Prof. Dr. Volker Lindenstruth
Kirchhoff-Institut für Physik
Prof. Dr. Volker Lindenstruth
03.02.2005 AutoGlobe: Automatische Administration von dienstbasierten Datenbankanwendungen
(Zusammenfassung)
(Folien)
Prof. Alfons Kemper
Technische Universität München
Prof. Alfons Kemper
10.02.2005 Kommerzielles Computational Grid: Der Weg vom theoretischen Grid Modell zum G-Commerce
(Folien 5MB)
Mathias Kaldenhoff
Oracle, Deutschland

17.02.2004
Anfrageverarbeitung in P2P-Systemen
(Folien)
Prof. Kai-Uwe Sattler
Technische Universität Ilmenau
Prof. Sattler

Zur Hauptseite der Ringvorlesung








Kurzzusammenfassungen

Prof. Gerhard Weikum
Intelligente und effiziente Suche auf semistrukturierten Daten

Im Zeitalter der Informationsexplosion findet man in zunehmendem Maße semistrukturierte Daten in XML und anderen Formaten, beispielsweise in großen Intranets, digitalen Bibliotheken, wissenschaftlichen Datenarchiven und auch im Web. Häufig möchte man mehrere Datenquellen dieser Art durchsuchen und trifft dabei auf das Problem, dass es kein global einheitliches Datenbankschema gibt; man hat es vielmehr mit hochgradig heterogenen Daten zu tun, die bezüglich Struktur, Annotationen (z.B. XML-Tags) und Terminologie stark variieren. Boolesche Datenbankanfragen, die man in XQuery oder XPath formulieren kann, sind dann häufig unbefriedigend, weil sie entweder zu wenige oder viel zu viele Resultate liefern. Stattdessen benötigt man ein auf Relevanz- oder Ähnlichkeitsmaßen beruhendes Ranking von Anfrageresultaten, und dafür wiederum müssen Datenbankverfahren mit Techniken des dokumentenorientierten Information Retrieval kombiniert werden.

Der Vortrag stellt mit den in Saarbrücken entwickelten Systemen XXL und COMPASS einen Ansatz dieser Richtung vor. Es wird gezeigt, wie man - unter anderem mit Hilfe von quantifizierten ontologischen Konzeptbeziehungen - heterogene XML-Daten mit hoher Präzision und Ausbeute suchen kann. Zur effizienten Ausführung von Anfragen kommen spezifische Indexstrukturen, insbesondere der Pfadindex HOPI (Two-Hop-Based Path Index), sowie approximative Algorithmen für Top-k-Ähnlichkeitsanfragen mit probabilistischen Garantien zum Einsatz. Wesentliche Konzepte der XML-Suche lassen sich auch auf - automatisch und dynamisch in XML konvertierte - HTML- und PDF-Daten aus dem Web sowie auf Deep-Web-Portale anwenden.



Prof. Alfons Kemper
AutoGlobe: Automatische Administration von dienstbasierten Datenbankanwendungen

Derzeit lässt sich ein Trend weg von monolithischen Systemen hin zu Service Oriented Architectures (SOAs) beobachten. Dieser Paradigmenwechsel erfordert neue Administrationstechniken, um die auf SOAs basierenden verteilten Datenbankanwendungen zuverlässig und kostengünstig betreiben zu können. Zu diesem Zweck entwickeln wir in Kooperation mit der ACI-Abteilung von SAP neue Selbstadministrierungskonzepte. Die Grundlage hierfür bilden die Virtualisierung von Hardware und Diensten, sowie ein kontinuierliches Monitoring. Dadurch ist es möglich, die Verteilung der Dienste auf die zur Verfügung stehende Hardware durch statische und dynamische Allokationstechniken zu optimieren. Statische Allokationsalgorithmen liefern eine optimierte a priori Verteilung der Dienste auf die Hardware. Dazu werden Dienste mit komplementären Ressourcenanforderungen möglichst gemeinsam auf einem Rechner ausgeführt. Eine rein statische Optimierung kann allerdings nicht zeitnah auf unvorhersagbare Ereignisse, wie etwa Überlast- oder Fehlersituationen, reagieren. Deshalb setzen wir zusätzlich eine auf Fuzzy-Logik basierende Kontrollkomponente ein, die zur Laufzeit dynamisch Anpassungen der Dienstallokation vornimmt. Beispielsweise werden abgestürzte Dienste neu gestartet und Überlastsituationen durch Hinzunahme weiterer Instanzen oder den Umzug einer Instanz auf einen leistungsfähigeren Rechner behoben. Die vorgestellten Technologien stellen damit einen ersten Schritt in Richtung eines durchgängigen Quality of Service-Managements (QoS-Management) in einer derartigen verteilen Web-Service basierten Informationsverarbeitungs-Infrastruktur dar. AutoGlobe ist die prototypische Umsetzung der in diesem Beitrag beschriebenen Konzepte für eine adaptive Infrastruktur, die sich durch Selbstkonfiguration, Selbstoptimierung und eigenständige Fehlerbehebung auszeichnet. Die grundlegenden hier vorgestellten Konzepte wurden bereits in SAP NetWeaver integriert.