Wie? Schon wieder ein neues Nachrichtenformat?! Not really. Der soeben vom International Press Telecommunications Council (IPTC) vorgestellte Entwurf für einen neuen Standard mit der Bezeichnung rNews will die Veröffentlichung von aktuellem Content auf Webseiten so mit Metadaten anreichern, dass der News-Content fürs semantische Web aufbereitet werden kann.
Die inhaltlich nichtssagende Abfolge von HTML-Tags wie <p> (Absatz) oder <h1> (Überschrift 1. Ordnung) soll – so die Absicht der Protagonisten des semantischen Webs im World-Wide-Web-Konsortium (W3C) oder anderen Zusammenhängen – ergänzt werden um eindeutige Kennzeichnungen zur Bedeutung bestimmter Abschnitte. Mit HTML5 werden zwar einige neue semantische Tags eingeführt wie <article> oder <time>. Die Konzepte für das semantische Web reichen aber weit darüber hinaus. Ihr Vorteil: Web-Inhalte lassen sich dann exakter von Suchmaschinen auswerten und können von Anwendungen direkt für die Verwendung in anderen Medien genutzt und mit anderen Daten zusammengeführt werden, etwa für eine App auf mobilen Geräten.
Die rNews ähneln dem Format der hNews, das von Associated Press fürs technische Hosting von Online-Ausgaben kleinerer Zeitungen in den USA genutzt wird. Das hNews-Format gehört zu den sogenannten Mikroformaten, die ein HTML-Dokument um vereinbarte semantische Attribute ergänzen. Hier werden semantische Attribute festgelegt wie etwa class=”source-org” für den Namen des Nachrichtenanbieters, class=”dateline” für den Ort, an dem die Nachricht verfasst oder gesendet wurde oder class=”geo” für Geodaten von Orten, die in der Nachricht genannt werden.
Während die hNews auf dem für Blogs entwickelten Mikroformat hAtom aufbauen, ist das neue rNews-Format eine Weiterentwicklung des Resource Description Frameworks (RDF). Auf RDF baut auch das Konzept der Linked Data auf, das auswertbare Beziehungen zwischen Begriffen und anderen Ressourcen ermöglicht. RDF verwendet zentrale Bausteine des Webs, wie den Uniform Resource Identifier (URI) mit seiner Unterkategorie URL, die den Ort einer Web-Ressource (URL) angibt. Ein URI ermöglicht eine weltweit eindeutige Kennzeichnung einer Ressource, muss aber keine URL sein. Damit können Aussagen nach dem Modell Subjekt-Aussage-Objekt erstellt werden, die semantische Beziehungen zwischen verschiedenen Dingen ausdrücken. Eine solche Beziehung wird als “Triple” bezeichnet. In seiner Erläuterung des RDF-Konzepts verwendet der IPTC dafür das Beispiel des Twitter-Accounts von Stuart Myles, der bei AP für die Nutzung von XML-Formaten und Metadaten zuständig ist: Ein RDF-Triple ist hier die Aussage: Die Person “Stuart Myles” (Subjekt) verwendet (Aussage) den Twitter-Namen “@smyles” (Objekt). Dabei wird das Subjekt in Form eines URI dargetellt: “http://www.iptc.org/authority/per/stuart_myles”.
Als RDFa wird nun eine Technik bezeichnet, die das RDF-Modell in HTML-Dokumente integriert. Die Bezeichnungen für die einzelnen Elemente einer semantischen Zuordnung werden in einem eigenen Namensraum festgelegt, der mit dem HTML-Dokument aufgerufen wird. Mikroformate wie hNews können von jedem HTML-Parser (also einer Software zur Analyse und Darstellung von HTML-Dokumenten) gelesen werden, weil nur eingeführte HTML-Bausteine wie “class” verwendet werden. Bei RDFa gibt es zusätzliche Elemente, so dass für die Auswertung des semantischen Gehalts solcher Dokumente ein besonderer RDFa-Parser benötigt wird wie etwa das Firefox-Plugin Fuzz.
Worum es den einzelnen rNews-Elementen geht, wird ganz gut in diesem Modell des IPTC deutlich:

Datenmodell von rNews, Quelle: IPTC
Die Metadaten zur semantischen Kennzeichnung einzelner Bereiche des HTML-Dokuments werden – hier am Beispiel des Verfassernamens und der Quelle einer Nachricht – in einer leicht nachvollziehbaren Form eingebettet:
<div>Credit: <!-- hier wird der URI des Verfassers deklariert --> <span rel="rnews:createdBy"> <span about="http://blogs.reuters.com/goran-tomasevic/ typeof="rnews:Person"> <span property="rnews:name">Goran Tomasevic</span> </span> </span> <span rel="rnews:copyrightedBy rnews:hasSource rnews:providedBy"> <!-- und hier wird der URI der News-Quelle deklariert --> <span about="http://www.reuters.com" typeof="rnews:Organization"> <span property="rnews:name">Reuters</span> </span> </span> </div> |
Mit Blick auf die Beziehung zwischen rNews und den IPTC-Formaten NITF und NewsML-G2 betont die Standardisierungsorganisation die unterschiedlichen Verwendungszwecke: Bei NITF und G2 geht es um die standardisierte Übermittlung von Nachrichten in einem B2B-Kontext. Mit Hilfe von XSLT-Umwandlungen lässt sich zwar auch der NITF- und G2-Content in ein ansprechendes HTML-Dokument überführen. Es gebe aber eine zunehmende Zahl von Nutzern, so erklärt es der IPTC, “die nur mit ‘reinen’ Web-Techniken arbeiten wollen, also mit HTML statt mit XML”. Und im Hinblick auf hNews wird im IPTC nach Auskunft seines geschäftsführenden Direktors Michael Steidl überlegt, ob nicht beide Metadaten-Konzepte, also hNews und rNews, in einer Art Hybridlösung in HTML integriert werden können.
Inwieweit der Entwurf für rNews mit der frühen Versionskennung 0.1 nun von Content-Anbietern aufgegriffen und dann weiterentwickelt wird, wird interessant zu beobachten sein. Geradezu euphorisch hat sich schon mal der W3C-Experte fürs semantische Web, Ivan Herman, geäußert: Mit Hilfe von rNews könnten alle großen Online-News-Portale der Welt – “von Associated Press bis AFP, oder von der New York Times bis zur Süddeutschen Zeitung” ihre Nachrichtenbeiträge mit Metadaten in RDFa bereichern und diese so in Anwendungen fürs semantische Web einbringen. “Das ist aufregend!”
