| pTA StudienArbeit | Aktuell | Seminare | Reports | Homepage | Software | |||||
|
| ||||||||||
|
@informatik.hu-berlin.de Reports - postindustr.CC - XML/Ti Report - pTA StudienArbeit . - sch_llf study - Geschichte des PC TechDocs - Perl Objects - Installing Oracle - shell cmds in python - Using css for xml defs tricks - Unsafe mono [x] ! - Docbook Manpages - Java Bean Code rpm-suse - schema-mappingen ig cv hg re dv ev zz mk pr - java problemsen lang swing ext gtk jjtree xul boot -grub-netboot -grub-gtk -partclone freshmeat -partimage links -releaseuploader -guidod-pygtk
2003-12-30
|
pTA (persistant TextArray)
Die Markups bilden bei wohlgeformten XML ganz natürlich eine verschachtelte Baumstruktur aus. Wo die Markups im serialisierten XML-Dokument vorlagen wird durch Index-Positionen angegeben, die letztlich Offsets sind in den lückenlosen Textinhalt. Da der reine Textinhalt lückenlos vorlieg5, kann er mit einfach Methoden geparset werden, ohne sich um das "Überspringen" von Markups kümmern zu müssen - auch ganz normale RegExp funktionieren wieder. Man kann sehr günstig aus einem xpath-select die zugehörigen Positionsgrenzen des Textes erhalten, die Baumstruktur macht dieses Auffinden sehr effizient. Für die Verwaltung grosser Dokumente muss man nun auf Sekundärspeicher zurückgreifen, und dazu wurden im XEE Projekt entsprechende Algorithmen implementiert, die die Verwaltungs- und Suchaufgaben einer AST/TA Darstellung auf blockorienten Sekundärspeicher ermöglichen. Neben der Speicherung des Zugriffsbaumes einschliesslich Attributen und Indexen, ist ein Teil davon ist die Speicherung des TextArray Anteils selbst auf Festplatten, genannt pTA "persistant TextArray". Es ist schnell klar, dass man für einen solchen TextBlock mit linearen Indices einen positional-B*-Tree verwendet, der die Blöcke der Festplatte(n) verwaltet, einschliesslich seiner eigenen, und effizient Einfügen, Löschen und Suchen ermöglicht. In der Studienarbeit wird dies nochmal begründet, und auf die Einbettung eines solchen TextArrays in die Informationssuche und -Verwaltung innerhalb einer AST/TA Darstellung eingegangen. pTA/ (An english introduction and the PDF documents can be found here) | |||||||||