XML-Ecke

Struktur in den Content!

wie geht das?

Wie HTML arbeitet auch XML mit Tags, den spitzen Klammern mit Anweisungen für den Umgang mit dem Dokument. Die XML-Tags bestimmen Inhalt und Struktur von Datenfeldern, wie man bei einer Datenbank sagt. Bei XML ist jedoch von Elementen die Rede. Im Unterschied zum festgelegten Satz von HTML-Elementen können die XML-Tags frei bestimmt werden.

Der XML-Standard enthält für sich genommen nur eine bestimmte Syntax, also Regeln für die Satzstellung, für die Anordnung von Elementen eines Dokuments. Das Vokabular, der Wortschatz für eine bestimmte Klasse von Dokumenten, wird als Satz von verwendbaren Elementen festgelegt, der als Dokumententypdefinition (DTD) oder Schema bezeichnet wird.

Wenn die XML-Syntax korrekt eingehalten wird, spricht man von wohlgeformten Dokumenten. Um im Sprachbeispiel zu bleiben, wäre etwa auch der Satz Die Sonne singt grün als wohlgeformt zu betrachten, da er den syntaktischen Regeln folgt.

Diese XML-Grundregeln für ein wohlgeformtes Dokument sind:

  1. Das Dokument besteht aus einem oder mehreren Elementen, die in einer Baumstruktur angeordnet sind. Jedes mit einem Inhalt gefüllte Element besteht aus einem öffnenden Start-Tag und einem schließenden End-Tag.

  2. Das Element der obersten Ebene, das Wurzelelement (root), schließt alle anderen Elemente ein.

  3. Alle weiteren Elemente sind so ineinander verschachtelt, dass sie sich nicht überlappen.

Hier ein Beispiel für ein solches wohlgeformtes XML-Dokument:

<?xml version=”1.0″?>
<daten>
<feld1>Angaben zu feld1</feld1>
<feld2>Angaben zu feld2</feld2>
<feld3>Angaben zu feld3</feld3>
</daten>

Wie bei HTML – allerdings mit Beachtung von Groß- und Kleinschreibung – wird jede XML-Anweisung in ein öffnendes und ein schließendes Tag umhüllt. Im schließenden Tag wird ein Schrägstrich (Slash) vor den Namen des Elements gesetzt:

<mein_tag>mein_blablabla</mein_tag>

Wie HTML-Dateien können auch XML-Dokumente mit einem einfachen ASCII-Editor erstellt werden, also mit einer Textverarbeitung und dem Standard-Zeichensatz. Dabei muss beim Speichern auf die Dateierweiterung .xml geachtet werden Mehr Komfort bieten spezielle XML-Editoren.

Wenn bei einem wohlgeformten XML-Dokument darüber hinaus auch der Wortschatz einer bestimmten DTD oder eines Schemas in der vorgesehenen Weise verwendet wird, spricht man von einem “gültigen Dokument”. Weil hier die einzelnen Elemente bestimmten Vorgaben folgen müssen, wäre etwa der Satz Die Sonne scheint hell als gültig zu betrachten.

Gültige (“valid”) XML-Dokumente setzen ein Verfahren ein, mit dem sichergestellt werden kann, dass bei der Erstellung eines XML-Dokuments Bearbeitungsfehler verhindert werden. Dies geschieht, indem die Struktur des Dokuments genau vorgegeben wird. Ähnlich wie bei einer Datenbank (etwa einer einfachen Adressenverwaltung) wird festgelegt, welche Elemente das Dokument enthält, wie oft sie auftauchen und welche Art von Inhalt sie aufnehmen können. Eine solche Strukturbeschreibung wird in der XML-Welt als Document Type Definition, abgekürzt DTD, bezeichnet. Hier werden also die einzelnen Bestandteile einer Information festgelegt wie etwa Straße, Hausnummer, Postleitzahl und Ort bei einer Adresse. Diese Bezeichnungen können dann in dem darauf beruhenden XML-Dokument verwendet werden, um eine Vielzahl von Adressen einzugeben. Alternativ zur DTD können gültige XML-Dokumente ihre Strukturfestlegung auch von einem XML-Schema beziehen – dieser Standard hat zwei Vorteile: a) Die Definition der Struktur erfolgt ebenfalls mit der Syntax von XML und b) können zusätzlich auch bestimmte Datentypen für den Inhalt eines XML-Dokuments festgelegt werden.

Hier ein kommentiertes Beispiel für ein gültiges XML-Dokument:

  1. Die erste Anweisung eines XML-Dokuments gibt den verwendeten Standard an:
<?xml version=”1.0″?>

Hiermit wird angezeigt, dass es sich um ein Dokument im Format XML 1.0 handelt.Dieser derzeit gültige Standard wurde im Februar 1998 vom W3C als Standard angenommen und im Internet veröffentlicht. Eine deutsche Fassung liegt in einer inoffiziellen Übersetzung vor. Die Fragezeichen zu Beginn und am Ende des Tags signalisieren, dass es sich hier um eine Verarbeitungsanweisung für den XML-Parser handelt, also für die technische Schnittstelle zu der Software, die das XML-Dokument interpretieren und anzeigen soll. Der Parser, ein Software-Baustein für Browser oder andere Programme, interpretiert die XML-Anweisungen eines Dokuments und überprüft, ob die Elemente mit den Festlegungen der DTD konform gehen.

  1. Die DTD kann innerhalb des Dokuments, als interne DTD, vorliegen. Bei umfangreicheren Strukturbeschreibungen wird die DTD aber üblicherweise mit einem Verweis auf eine andere Datei oder auf eine öffentlich zugängliche DTD im Internet angegeben, also in Form einer externen DTD. Eine interne DTD besteht aus einem Namen für die DTD, gefolgt von der Definition der darin enthaltenen Tags, und zwar in dieser Form:
<!DOCTYPE name [
<!ELEMENT data (feld1, feld2, feld3, ...)>
<!ELEMENT feld1 (#PCDATA)>
<!ELEMENT feld2 (#PCDATA)>
<!ELEMENT feld3 (#PCDATA)>
]>

Zu beachten ist, dass die Definitionen der Elemente in eckige Klammern eingeschlossen werden. Das Schlüsselwort #PCDATA gibt an, dass der Inhalt aus beliebigen Zeichenfolgen bestehen darf. Wenn hier nur bestimmte Werte zugelassen sein sollen, wird dies in dieser Form vorgeschrieben:

<!ELEMENT feld4 (rot|grün|schwarz|gelb|blau)*>

Jetzt ist hier nur eine der genannten Farben als gültige Information zugelassen. Der waagrechte Strich steht für eine logische Oder-Verknüpfung Bei einer externen DTD muss der Ort der Datei angegeben werden:

<!DOCTYPE name SYSTEM "name.dtd">

oder zum Beispiel

<!DOCTYPE name SYSTEM "http://www.domain.de/xml/name.dtd">
  1. Anschließend folgen dann im eigentlichen Textkörper des Dokuments die strukturierten Informationen:
<data>
<feld1>Angaben zu feld1</feld1>
<feld2>Angaben zu feld2</feld2>
<feld3>Angaben zu feld3</feld3>
<feld4>grün</feld4>
</data>
  1. Kommentare sind oft nützlich, um in XML-Dokumenten oder bei einer DTD Erläuterungen zu einzelnen Elementen anzugeben. Sie beginnen mit einem Ausrufezeichen, gefolgt von zwei Bindestrichen und enden mit zwei Bindestrichen:
<!-- hier steht ein Kommentar -->

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>