hNews als Nachrichtenformat für semantische Web
Die bestehenden XML-Formate für Nachrichten – NewsML und NITF – haben sich für viele Zwecke bewährt. Sie ermöglichen es, den Content von Nachrichtenagenturen auf verschiedenen Plattformen zu nutzen, von Print bis zum Web. Beide Formate erleichtern das Management von Nachrichten; dazu gehört etwa das automatisierte Ersetzen von Inhalten eines News-Portals oder das Verknüpfen zusammengehörender Inhalte. Dabei ist NewsML insgesamt leistungsfähiger und bietet etwa mehr Möglichkeiten zur Einbindung von Multimedia-Inhalten. Zudem kann NewsML auch NITF-Content (etwa Text oder Tabellen) einbetten.
Ein Nachteil insbesondere von NewsML besteht aber darin, dass die einzelnen News-Items schnell recht komplex werden können, insbesondere wenn der NewsML-Container mehrere Inhalte mit mehrfach verschachtelten Elementen umfasst. Zudem erfordern die Nachrichtendokumente in beiden XML-Standards eine zusätzliche XSLT-Datei für die Ausgabe in HTML oder Print.
Eine ähnliche Situation besteht auch für andere Webinhalte wie Blog-Beiträge oder Visitenkarten. Als eine Art Zwischenformat zwischen HTML und spezifischen XML-Sprachen bieten sich sogenannte Mikroformate an, die ein HTML-Dokument um vereinbarte semantische Attribute (etwa class, rel oder rev) ergänzen. Diese können dann ähnlich wie bei XML-Dokumenten von Anwendungen genutzt werden, so dass der HTML-Code zum einen sofort im Browser angezeigt wird, zum anderen weiterführende maschinenlesbare Informationen enthält.
Ein einfaches Beispiel ist das Mikroformat hCard als Alternative zum Mailformat vCard:
<div class="vcard"> <div class="fn">Max Mustermann</div> <div class="org">Musterfirma</div> <div class="tel">01234/56789</div> <a class="url" href="http://www.mustermann.de/">http://www.mustermann.de/</a></div> |
Analog gibt es nun den Vorschlag für ein Mikroformat hNews – im Oktober 2009 wurde die erste Version 0.1 für den Entwurf des offenen Standards vorgelegt. Initiatoren sind Associated Press und der Media Standards Trust (MST). Wie in hCard steht das “h” für HTML – es gibt aber auch die Deutung des Buchstabens h in der Bezeichnung von Mikroformaten als umgedrehtes μ (My) – dieser griechische Buchstabe wird als Abkürzung von Mikro benutzt. hNews will NewsML nicht ersetzen, sondern bietet sich eher als ergänzendes Zielformat für die Transformation von NewsML an.
“hNews ist ein Mikroformat, um semantische Informationen in Nachrichten zu bestimmen”, heißt es einleitend in dem Entwurf für den Standard, der auf hAtom aufbaut – dem Mikroformat für Blog-Beiträge. Zu den semantischen Attributen von hNews gehören etwa:
- class=”source-org” – Name des Nachrichtenanbieters
- class=”dateline” – Ort, an dem die Nachricht verfasst oder gesendet wurde
- class=”geo” – Geodaten von Orten, die in der Nachricht genannt werden
- rel=”item-license” – Angaben zu Lizenzbestimmungen des Nachrichtenanbieters
- rel=”principles” – Angaben zum journalistischen Kodex des Nachrichtenanbieters
Das vom hnews-Projekt angeführte Beispiel macht die (X)HTML-Struktur dieses Nachrichtenformats deutlich:
<div class="hnews hentry item">
<h4> <a class="url entry-title" rel="bookmark" href="http://example.org/article/us-latam-obama-democracy.html">
Renewing US ties with Latin America, Obama says he wants to lead, not lecture, on democracy</a></h4>
<div>
<small> by
<span class="author vcard"><a class="email fn" href="mailto:ben.feller@example.org">BEN FELLER</a></span>,
<span class="source-org vcard"><a class="url org fn" href="http://www.ap.org">Associated Press</a></span>,
<a rel="principles" href="http://www.ap.org/newsvalues/index.html"><img src="/wikidir/images/principles-button-blue.png" alt="" /></a> -
<span class="updated dtstamp" title="2009-04-19T18:17:29Z">19 April 2009 18:17 GMT</span>
</small></div>
<div class="entry-content">
<span class="dateline">PORT-OF-SPAIN, Trinidad</span> (AP) -- Defending his brand
of world politics, President Barack Obama said Sunday...
Both Graham and McCaskill spoke on "Fox News Sunday." Ensign was interviewed on CNN's
"State of the Union."</div>
<div>
<small>
News Topics:
<a rel="tag" href="http://example.org/Summits">Summits</a>, ...,
<a rel="tag" href="http://example.org/Government+policy">Government policy</a>
People, Places and Companies:
<a rel="tag" href="http://example.org/Barack+Obama">Barack Obama</a>, ...,
<a rel="tag" href="http://example.org/Hugo+Chavez">Hugo Chavez</a>
</small></div>
<div class="geo">
<small>
Lat: <span class="latitude">10.65715</span>
Long: <span class="longitude">-61.483582</span>
</small></div>
<div id="first-sample-license">
<small>
Copyright 2009 The <a rel="item-license" href="#first-sample-license">Associated Press</a>.
All rights reserved. This material may not be published, broadcast, rewritten or redistributed.
</small></div>
</div> |
Associated Press will hNews nach eigenem Bekunden auch dazu verwenden, um die Verbreitung ihrer Nachrichten im Web zu kontrollieren. Zum einen sollen Urheberrechtsverstöße erkannt und verfolgt werden. Zum anderen will die Agentur als Originalquelle von Nachrichten eine größere Aufmerksamkeit im Netz erhalten, gemessen an Klickzahlen und dem Ranking der Suchmaschinen. In den FAQ zu hNews erklärt AP-Entwickler Stuart Myles, das Format lasse die Einbindung eines “Web bugs” zum Tracken von Online-Content zu (etwa in Form eines Zähl-Pixels). Für sich genommen enthält hNews allerdings keine derartige Funktion.
Wenn hNews zu einem allgemein akzeptierten Standard wird, könnte dies ein wesentlicher Schritt zu einem “semantischen Web” sein. Die Attribute des Formats ließen sich dann von Webanwendungen gezielt zur Kanalisierung der Informationsflut verwenden. Bislang unterstützen vor allem AP, AOL und einige kleinere Anbieter das Format. In Europa scheint die Diskussion über Nachrichtenformate bislang nicht recht voranzukommen. Das könnte sich ändern, wenn hnews seine Eignung für den Aufbau einer umfassenden News-Registry unter Beweis gestellt hat.
