pTA StudienArbeit Aktuell Seminare Reports Homepage Software
printer / text mode version
university-logo
draheim
@informatik.hu-berlin.de

Reports
- postindustr.CC
- XML/Ti Report
- pTA StudienArbeit  .
- sch_llf study
- Geschichte des PC

TechDocs
- Perl Objects
- Installing Oracle
- shell cmds in python
- Using css for xml
    defs   tricks
- Unsafe mono  [x]  !
- Docbook Manpages
- Java Bean   Code
rpm-suse
 
- schema-mappingen
  ig cv hg re dv ev
  zz mk pr
- java problemsen
  lang swing ext gtk jjtree xul
 
boot
-grub-netboot
-grub-gtk
-partclone freshmeat
-partimage links
 
-releaseuploader


sitemap


-guidod-pygtk
sitemap             *offsite link

2003-12-30
(C) Guido Draheim
guidod@gmx.de

 
generated by mksite.sh

pTA (persistant TextArray)

Das XEE Project ist der Projektname für die "XML Query Execution Engine" , einem Abfrage und Verwaltungssystem für XML Dokumente. In dessen Zentrum steht eine spezielle Datenstruktur, der Access Support Tree / TextArray (AST/TA). Dabei werden die Markups eines XML Dokumentes getrennt gehalten von dem Textinhalt, wobei der Textinhalt lückenlos gespeichert wird (im Ggs. zum DOM).

                     

Die Markups bilden bei wohlgeformten XML ganz natürlich eine verschachtelte Baumstruktur aus. Wo die Markups im serialisierten XML-Dokument vorlagen wird durch Index-Positionen angegeben, die letztlich Offsets sind in den lückenlosen Textinhalt. Da der reine Textinhalt lückenlos vorlieg5, kann er mit einfach Methoden geparset werden, ohne sich um das "Überspringen" von Markups kümmern zu müssen - auch ganz normale RegExp funktionieren wieder. Man kann sehr günstig aus einem xpath-select die zugehörigen Positionsgrenzen des Textes erhalten, die Baumstruktur macht dieses Auffinden sehr effizient.

Für die Verwaltung grosser Dokumente muss man nun auf Sekundärspeicher zurückgreifen, und dazu wurden im XEE Projekt entsprechende Algorithmen implementiert, die die Verwaltungs- und Suchaufgaben einer AST/TA Darstellung auf blockorienten Sekundärspeicher ermöglichen. Neben der Speicherung des Zugriffsbaumes einschliesslich Attributen und Indexen, ist ein Teil davon ist die Speicherung des TextArray Anteils selbst auf Festplatten, genannt pTA "persistant TextArray".

Es ist schnell klar, dass man für einen solchen TextBlock mit linearen Indices einen positional-B*-Tree verwendet, der die Blöcke der Festplatte(n) verwaltet, einschliesslich seiner eigenen, und effizient Einfügen, Löschen und Suchen ermöglicht. In der Studienarbeit wird dies nochmal begründet, und auf die Einbettung eines solchen TextArrays in die Informationssuche und -Verwaltung innerhalb einer AST/TA Darstellung eingegangen.

Eine englische Einführung und die PDF Dokumente finden sich hier:
      pTA/      
(An english introduction and the PDF documents can be found here)