xml

XML-Ecke

Struktur in den Content!

hNews als Nachrichtenformat für semantische Web

Die bestehenden XML-Formate für Nachrichten – NewsML und NITF – haben sich für viele Zwecke bewährt. Sie ermöglichen es, den Content von Nachrichtenagenturen auf verschiedenen Plattformen zu nutzen, von Print bis zum Web. Beide Formate erleichtern das Management von Nachrichten; dazu gehört etwa das automatisierte Ersetzen von Inhalten eines News-Portals oder das Verknüpfen zusammengehörender Inhalte. Dabei ist NewsML insgesamt leistungsfähiger und bietet etwa mehr Möglichkeiten zur Einbindung von Multimedia-Inhalten. Zudem kann NewsML auch NITF-Content (etwa Text oder Tabellen) einbetten.

Ein Nachteil insbesondere von NewsML besteht aber darin, dass die einzelnen News-Items schnell recht komplex werden können, insbesondere wenn der NewsML-Container mehrere Inhalte mit mehrfach verschachtelten Elementen umfasst. Zudem erfordern die Nachrichtendokumente in beiden XML-Standards eine zusätzliche XSLT-Datei für die Ausgabe in HTML oder Print.

Eine ähnliche Situation besteht auch für andere Webinhalte wie Blog-Beiträge oder Visitenkarten. Als eine Art Zwischenformat zwischen HTML und spezifischen XML-Sprachen bieten sich sogenannte Mikroformate an, die ein HTML-Dokument um vereinbarte semantische Attribute (etwa class, rel oder rev) ergänzen. Diese können dann ähnlich wie bei XML-Dokumenten von Anwendungen genutzt werden, so dass der HTML-Code zum einen sofort im Browser angezeigt wird, zum anderen weiterführende maschinenlesbare Informationen enthält.

Ein einfaches Beispiel ist das Mikroformat hCard als Alternative zum Mailformat vCard:

<div class="vcard">
<div class="fn">Max Mustermann</div>
<div class="org">Musterfirma</div>
<div class="tel">01234/56789</div>
<a class="url" href="http://www.mustermann.de/">http://www.mustermann.de/</a></div>

Analog gibt es nun den Vorschlag für ein Mikroformat hNews – im Oktober 2009 wurde die erste Version 0.1 für den Entwurf des offenen Standards vorgelegt. Initiatoren sind Associated Press und der Media Standards Trust (MST). Wie in hCard steht das “h” für HTML – es gibt aber auch die Deutung des Buchstabens h in der Bezeichnung von Mikroformaten als umgedrehtes μ (My) – dieser griechische Buchstabe wird als Abkürzung von Mikro benutzt. hNews will NewsML nicht ersetzen, sondern bietet sich eher als ergänzendes Zielformat für die Transformation von NewsML an.

“hNews ist ein Mikroformat, um semantische Informationen in Nachrichten zu bestimmen”, heißt es einleitend in dem Entwurf für den Standard, der auf hAtom aufbaut – dem Mikroformat für Blog-Beiträge. Zu den semantischen Attributen von hNews gehören etwa:

- class=”source-org” – Name des Nachrichtenanbieters

- class=”dateline” – Ort, an dem die Nachricht verfasst oder gesendet wurde

- class=”geo” – Geodaten von Orten, die in der Nachricht genannt werden

- rel=”item-license” – Angaben zu Lizenzbestimmungen des Nachrichtenanbieters

- rel=”principles” – Angaben zum journalistischen Kodex des Nachrichtenanbieters

Das vom hnews-Projekt angeführte Beispiel macht die (X)HTML-Struktur dieses Nachrichtenformats deutlich:

<div class="hnews hentry item">
<h4>    <a class="url entry-title" rel="bookmark" href="http://example.org/article/us-latam-obama-democracy.html">
      Renewing US ties with Latin America, Obama says he wants to lead, not lecture, on democracy</a></h4>
<div>
    <small> by
      <span class="author vcard"><a class="email fn" href="mailto:ben.feller@example.org">BEN FELLER</a></span>,
      <span class="source-org vcard"><a class="url org fn" href="http://www.ap.org">Associated Press</a></span>,
      <a rel="principles" href="http://www.ap.org/newsvalues/index.html"><img src="/wikidir/images/principles-button-blue.png" alt="" /></a>  -
      <span class="updated dtstamp" title="2009-04-19T18:17:29Z">19 April 2009 18:17 GMT</span>
    </small></div>
<div class="entry-content">
 
<span class="dateline">PORT-OF-SPAIN, Trinidad</span> (AP) -- Defending his brand
      of world politics, President Barack Obama said Sunday...
 
Both Graham and McCaskill spoke on "Fox News Sunday." Ensign was interviewed on CNN's
      "State of the Union."</div>
<div>
    <small>
      News Topics:
      <a rel="tag" href="http://example.org/Summits">Summits</a>, ...,
      <a rel="tag" href="http://example.org/Government+policy">Government policy</a>
 
      People, Places and Companies:
      <a rel="tag" href="http://example.org/Barack+Obama">Barack Obama</a>, ...,
      <a rel="tag" href="http://example.org/Hugo+Chavez">Hugo Chavez</a>
    </small></div>
<div class="geo">
    <small>
      Lat: <span class="latitude">10.65715</span>
      Long: <span class="longitude">-61.483582</span>
    </small></div>
<div id="first-sample-license">
    <small>
      Copyright 2009 The <a rel="item-license" href="#first-sample-license">Associated Press</a>.
      All rights reserved. This material may not be published, broadcast, rewritten or redistributed.
    </small></div>
</div>

Associated Press will hNews nach eigenem Bekunden auch dazu verwenden, um die Verbreitung ihrer Nachrichten im Web zu kontrollieren. Zum einen sollen Urheberrechtsverstöße erkannt und verfolgt werden. Zum anderen will die Agentur als Originalquelle von Nachrichten eine größere Aufmerksamkeit im Netz erhalten, gemessen an Klickzahlen und dem Ranking der Suchmaschinen. In den FAQ zu hNews erklärt AP-Entwickler Stuart Myles, das Format lasse die Einbindung eines “Web bugs” zum Tracken von Online-Content zu (etwa in Form eines Zähl-Pixels). Für sich genommen enthält hNews allerdings keine derartige Funktion.

Wenn hNews zu einem allgemein akzeptierten Standard wird, könnte dies ein wesentlicher Schritt zu einem “semantischen Web” sein. Die Attribute des Formats ließen sich dann von Webanwendungen gezielt zur Kanalisierung der Informationsflut verwenden. Bislang unterstützen vor allem AP, AOL und einige kleinere Anbieter das Format. In Europa scheint die Diskussion über Nachrichtenformate bislang nicht recht voranzukommen. Das könnte sich ändern, wenn hnews seine Eignung für den Aufbau einer umfassenden News-Registry unter Beweis gestellt hat.

XML verpackt Gadgets für Google Wave

Wenn es um Datenaustausch im Netz geht, kommt XML ins Spiel – auch bei Kommunikation und Kooperation mit Google Wave. Tatsächlich handelt es sich bei den Waves um nichts anderes als XML-Dokumente, die auf einem Server abgelegt und aktualisiert werden. Der Nutzer bekommt davon nicht viel mit – die Verwaltung der Dokumente findet in der [...]

weiterlesen »

eXist bringt XML-Daten zum Tanzen

Viele Datenbank-Programme können XML-Dokumente “mappen”, das heißt in ihre eigene Struktur übertragen und so für Abfragen aufbereiten. Bei “nativen” XML-Datenbanken entfällt diese Umwandlung, sie werden denn auch nicht wie relationale Datenbanken mit SQL bedient, sondern mit XML-Werkzeugen wie dem Standard XQuery. Eine besonders interessante XML-Datenbank ist das Open-Source-Projekt eXist, in der jetzt vorgelegten Version 1.4 [...]

weiterlesen »


Altova XMLSpy als Mac-Anwendung :-)

Bislang gibt es viele interessante XML-Anwendungen wie den XMLSpy von Altova nur für Windows. Die neue Version von Parallels Desktop für Mac bringt diese Programme nun direkt auf den Mac – und verpasst ihnen sogar das Mac-typische Aussehen mit dem roten, gelben und grünen Knopf in der Fensterecke links oben. Möglich macht dies der neue [...]

weiterlesen »

XMLSpy von Altova spricht auch JSON

Mit jeder Version lernt das Altova-Paket für die XML-Plattform neu hinzu. Nachdem vor einem Jahr die Unterstützung für die Business Reporting Language (XBRL) im Zentrum stand, spricht der XMLSpy 2010 jetzt auch JSON, das Datenformat JavaScript Object Notation.
“Es gibt zahllose Anwendungen, bei denen XML sinnvoller ist, und es gibt zahllose andere Anwendungen, bei denen JSON [...]

weiterlesen »


Debatte über Zukunft von XML

In einigen Blogs in den USA wird gerade eine Diskussion über den künftigen Stellenwert von XML geführt. Auslöser war ein Beitrag von Jack Vaughan mit der Frage “What’s the future of XML?”. Er stellt darin das Datenaustauschformat JSON (JavaScript Object Notation) als Reaktion auf die zunehmende Komplexität von XML dar und erklärt: “Es ist vorstellbar, dass die [...]

weiterlesen »

White Paper vergleicht ODF und OOXML

Microsoft und das Fraunhofer-Institut für Offene Kommunikationssysteme (FOKUS) haben gemeinsam ein White Paper vorgelegt, das die Unterschiede der Dokumentenformate Office Open XML (OOXML) und Open Document Format (ODF) untersucht.Im Mittelpunkt stehen Anwendungsszenarien für die Umwandlung von OOXML in ODF und umgekehrt.
Dateien beider Formate sind komprimierte ZIP-Pakete aus mehreren einzelnen Dateien, welche den Inhalt und [...]

weiterlesen »



Copyright © 2010 by: XML-Ecke - Lizenz: Creative Commons BY-NC-SA.