Semantic Web and Topic Maps


Ausarbeitung eines Vortrages von Martin Lötzsch vom 28.4.2003 im Seminar XML für Fortgeschrittene bei Oliver Becker am Institut für Informatik an der Humboldt-Universität zu Berlin.

1. Auf dem Weg zum Semantic Web

"Semantic Web" ist ein Schlagwort, das eine ganze Reihe von Initiativen, Standards und Produkten mit teilweise sehr verschiedenen Bedeutungen verwenden. Allen gemein ist jedoch die Vision, die im Internet in zahlreichen Repräsentationsformen und Strukturen vorhandenen Informationen so zu katalogisieren und zu strukturieren, dass die Informationen in ihren semantischen Zusammenhängen dargestellt werden und Anwendungen diese semantischen Relationen für automatische Verarbeitung nutzen können: The Semantic Web is a vision: the idea of having data on the Web defined and linked in a way that it can be used by machines not just for display purposes, but for automation, integration and reuse of data across various applications [4].

Im heutigen Internet gibt es eine Vielzahl von verschiedenen Informationen. Diese Informationen werden mit Hilfe von Verweisen (Hyperlinks) vernetzt. Diese Verweise sind gerichtet, d.h. sie verweisen aus einem Dokument in ein anderes. Sie sind untypisiert, d.h. dass die Art der Verknüpfung nicht representiert ist (handelt es sich um eine Navigationsverknüpfung, eine genauere Beschreibung eines Begriffes usw.). Neben den Dokumenten, die Informationsentitäten enthalten, gibt es eine ganze Reihe von Dokumenten, die andere Dokumente strukturieren sollen, z.B. Kataloge, Verzeichnisse, Kapitel, Kategorien, Subkategorien. Diese Mittel der Strukturierung von Informationen sind an die Verwaltung von Papierdokumenten angelehnt und werden auch so benutzt. Schließlich gibt es noch das Werkzeug der Suchmaschinen, mit Hilfe derer Informationen nach Stichwörtern gesucht werden können.

Die Idee verschiedener "Semantic Web" Initiativen ist es nun, neben diesen Informationsstrukturen des "klassischen" Internets zu versuchen, die Bedeutung von Informationen selbst sowie die Bedeutung von Verknüpfungen von Informationen zu representieren.

Beim W3C selbst gibt es zu diesem Thema unter anderem zwei Projekte bzw. Standards: Das Resource Description Framework (RDF) dient vor allem zum Beschreiben von Inhalten einer Resource. Dessen wohl prominenteste Anwendung ist das Open Directory Project , bei dem mit Hilfe von RDF versucht wird, das Internet umfassend zu katalogisieren. Ein anderes W3C Projekt ist die Web Ontology Language, mit welcher Ontologien, also Begriffe mit ihren Beziehungen untereinander, beschrieben werden können.

Etwas weiter gehend als diese beiden Ansätze sind XML Topic Maps (XTM), welche im nächsten Abschnitt behandelt werden.

2. Definition von semantischen Relationen mit Topic Maps

XML Topic Maps (XTM) wurden von der im Jahr 2000 gegründeten TopicMaps.Org Authoring Group (AG) 2001 als ISO/IEC 13250:2000 spezifiziert. Ähnlich wie bei der Web Ontology Language können mit Topic Maps Begriffe und deren Beziehungen untereinander spezifiziert werden. Zusätzlich sind die Begriffe (genauer: Topics) mit Informationsquellen im Internet verknüpft (ähnlich wie bei RDF). Topic maps are a new ISO standard for describing knowledge structures and associating them with information resources.

Im folgenden werden die wesentlichen Konstrukte der Spezifikation und ihre Bedeutung erläutert am Beispiel eines Opernlexikons [3] erläutert. Sämtliche Grafiken wurden [3] entnommen.

Topics

topic Topics sind die elementaren Bestandteile eines Topic Maps. Sie stehen für Dinge (things) oder Konzepte im ganz allgemeinen Sinn. Es können Gegenstände, abstrakte Begriffe, Personen, Orte, allgemeine Eigennamen usw. sein.

A topic, in its most generic sense, can be any "thing" whatsoever - a person, an entity, a concept, really anything - regardless of whether it exists or has any other specific characteristics, about which anything whatsoever may be asserted by any means whatsoever.

Im Beispiel der Oper sind z.B. die Orte Lucca und Rome, der Komponist Puccini, das Land Italien und die Opern Tosca und Madame Butterfly gleichberechtigte Topics.

Topic Types

topic typesJedes Topic ist Instanz von mindestens einer und beliebig vielen Topic Types. Dies sind Klassen von Dingen oder Konstrukten, denen das Topic zugeordnet werden kann. Im Beispiel gibt es die folgenden vier Topic Types:

Topic Names

topic namesVerschiedene Dinge oder Konzepte können in verschiedenen Kontexten verschiedene Namen haben. Zum Beispiel Italien und Italy für das Land Italien.

Deshalb ist es möglich, jedem Topic beliebig viele base names für verschiedene Verarbeitungskontexte zuzuweisen.

Occurence

occurenceTopic Maps definieren wie bereits erwähnt nicht nur Begriffe und deren Relationen untereinander, sondern verküpfen die Begriffe auch mit Informationsquellen, die den Begriff näher spezifizieren.

Dazu kann jedes Topic beliebig viele Occurences, d.h. mit einer URI spezifizierte Verweise auf Dokumente im Internet, haben.

Occurence Roles (Types)

occurence rolesUm die Art einer das Topic beschreibenden Resource näher zu spezifizieren zu können (und um diese Informationen dann später auch verschieden verarbeiten oder darstellen zu können) gibt es die Topic Roles.

Z.B. kann eine Occurence auf eine Monographie, einen Artikel, eine Illustration, ein Kommentar usw. verweisen.

Associations, Association Types und Roles

association types & rolesZwei Topics können mit beliebig vielen Associations verknüpft sein. Eine Association stellt die Begriffe in einen inhaltlichen Zusammenhang. Eine Association aus dem Beispiel kann sein: Tosca was written by Puccini.

Associations sind gerichtete, aber auch umkehrbare Relationen zwischen zwei Topics. So wurde Tosca von Puccini geschrieben, im Gegenzug war Puccini aber auch der Autor von Tosca.

Jede Association hat einen Association Type, der die Art der Relation definiert. Im Beispiel des Opernlexikons können das sein: written_by, takes_place_in, born_in, is_in.

Da die Associations gerichtet sind, hat jedes an einer Association beteiligte Topic eine Rolle. Im Beispiel "Puccini was born in Lucca" für die Relation was born hat Puccini die Rolle person und Lucca die Rolle place.

Subject Identity

Innerhalb eines Topic Maps sollten nie zwei Topics für die gleiche "Sache" existieren. Um dies garantieren zu können, gibt es die Subject Indicators, welche eindeutige IDs für topics sind.

Das Finden dieser IDs is einfach, wenn das Topic selbst eine URI ist oder eindeutig durch eine URI dargestellt werden kann. Schwieriger wird es bei Dingen wie "Italy" oder "Puccini". Für Dinge, die sich leichter standardisieren lassen (geographische Benennungen, industrielle Bauteile, chemische Verbindungen, Wirkstoffe usw.) gibt es oft Published Subject Identifiers, die meist Ergebnis von institutionsübergreifenden Standardisierungsbemühungen sind. Benutzen zwei Topic Maps solche standardisierten IDs, dann kann man sie einfach fusionieren.

Quellenangaben

1. W3C Semantic Web Page | http://www.w3.org/2001/sw/
2. Steve Pepper, Graham Moore: XML Topic Maps (XTM) 1.0, TopicMaps.Org Specification | http://www.topicmaps.org/xtm/1.0/
3. Steve Pepper: The TAO of Topic Maps: Finding the Way in the Age of Infoglut | http://www.ontopia.net\topicmaps\materials\tao.html
4. The Semantopic Map: Daten | http://mondeca-publishing.com/s/anonymous/
5. The Semantopic Map: Projektbeschreibung | http://www.universimmedia.com/semantopic.htm
6. Lars Marius Garshol: What are topic maps? (Artikel auf xml.com) | http://www.xml.com/pub/a/2002/09/11/topicmaps.html
7. Marc de Graauw: Business Maps: Topic Maps Go B2B (Artikel auf xml.com) | http://www.xml.com/pub/a/2002/08/21/topicmapb2b.html