XML-Ecke

Struktur in den Content!

rNews: Nachrichten fürs semantische Web

Wie? Schon wieder ein neues Nachrichtenformat?! Not really. Der soeben vom International Press Telecommunications Council (IPTC) vorgestellte Entwurf für einen neuen Standard mit der Bezeichnung rNews will die Veröffentlichung von aktuellem Content auf Webseiten so mit Metadaten anreichern, dass der News-Content fürs semantische Web aufbereitet werden kann.

Die inhaltlich nichtssagende Abfolge von HTML-Tags wie <p> (Absatz) oder <h1> (Überschrift 1. Ordnung) soll –  so die Absicht der Protagonisten des semantischen Webs im World-Wide-Web-Konsortium (W3C) oder anderen Zusammenhängen – ergänzt werden um eindeutige Kennzeichnungen zur Bedeutung bestimmter Abschnitte. Mit HTML5 werden zwar einige neue semantische Tags eingeführt wie <article> oder <time>. Die Konzepte für das semantische Web reichen aber weit darüber hinaus. Ihr Vorteil: Web-Inhalte lassen sich dann exakter von Suchmaschinen auswerten und können von Anwendungen direkt für die Verwendung in anderen Medien genutzt und mit anderen Daten zusammengeführt werden, etwa für eine App auf mobilen Geräten.

Die rNews ähneln dem Format der hNews, das von Associated Press fürs technische Hosting von Online-Ausgaben kleinerer Zeitungen in den USA genutzt wird. Das hNews-Format gehört zu den sogenannten Mikroformaten, die ein HTML-Dokument um vereinbarte semantische Attribute ergänzen. Hier werden semantische Attribute festgelegt wie etwa class=”source-org” für den Namen des Nachrichtenanbieters, class=”dateline” für den Ort, an dem die Nachricht verfasst oder gesendet wurde oder class=”geo” für Geodaten von Orten, die in der Nachricht genannt werden.

Während die hNews auf dem für Blogs entwickelten Mikroformat hAtom aufbauen, ist das neue rNews-Format eine Weiterentwicklung des Resource Description Frameworks (RDF). Auf RDF baut auch das Konzept der Linked Data auf, das auswertbare Beziehungen zwischen Begriffen und anderen Ressourcen ermöglicht. RDF verwendet zentrale Bausteine des Webs, wie den Uniform Resource Identifier (URI) mit seiner Unterkategorie URL, die den Ort einer Web-Ressource (URL) angibt. Ein URI ermöglicht eine weltweit eindeutige Kennzeichnung einer Ressource, muss aber keine URL sein. Damit können Aussagen nach dem Modell Subjekt-Aussage-Objekt erstellt werden, die semantische Beziehungen zwischen verschiedenen Dingen ausdrücken. Eine solche Beziehung wird als “Triple” bezeichnet. In seiner Erläuterung des RDF-Konzepts verwendet der IPTC dafür das Beispiel des Twitter-Accounts von Stuart Myles, der bei AP für die Nutzung von XML-Formaten und Metadaten zuständig ist: Ein RDF-Triple ist hier die Aussage: Die Person “Stuart Myles” (Subjekt) verwendet (Aussage) den Twitter-Namen “@smyles” (Objekt). Dabei wird das Subjekt in Form eines URI dargetellt: “http://www.iptc.org/authority/per/stuart_myles”.

Als RDFa wird nun eine Technik bezeichnet, die das RDF-Modell in HTML-Dokumente integriert. Die Bezeichnungen für die einzelnen Elemente einer semantischen Zuordnung werden in einem eigenen Namensraum festgelegt, der mit dem HTML-Dokument aufgerufen wird. Mikroformate wie hNews können von jedem HTML-Parser (also einer Software zur Analyse und Darstellung von HTML-Dokumenten) gelesen werden, weil nur eingeführte HTML-Bausteine wie “class” verwendet werden. Bei RDFa gibt es zusätzliche Elemente, so dass für die Auswertung des semantischen Gehalts solcher Dokumente ein besonderer RDFa-Parser benötigt wird wie etwa das Firefox-Plugin Fuzz.

Worum es den einzelnen rNews-Elementen geht, wird ganz gut in diesem Modell des IPTC deutlich:

Datenmodell von rNews, Quelle: IPTC

Datenmodell von rNews, Quelle: IPTC

Die Metadaten zur semantischen Kennzeichnung einzelner Bereiche des HTML-Dokuments werden – hier am Beispiel des Verfassernamens und der Quelle einer Nachricht – in einer leicht nachvollziehbaren Form eingebettet:

<div>Credit: 
<!-- hier wird der URI des Verfassers deklariert  -->
 
<span rel="rnews:createdBy">
   <span about="http://blogs.reuters.com/goran-tomasevic/ typeof="rnews:Person">
   <span property="rnews:name">Goran Tomasevic</span>
</span>
</span>
<span rel="rnews:copyrightedBy rnews:hasSource rnews:providedBy">
 
<!-- und hier wird der URI der News-Quelle deklariert -->
   <span about="http://www.reuters.com" typeof="rnews:Organization">
   <span property="rnews:name">Reuters</span>
</span>
</span>
</div>

Mit Blick auf die Beziehung zwischen rNews und den IPTC-Formaten NITF und NewsML-G2 betont die Standardisierungsorganisation die unterschiedlichen Verwendungszwecke: Bei NITF und G2 geht es um die standardisierte Übermittlung von Nachrichten in einem B2B-Kontext. Mit Hilfe von XSLT-Umwandlungen lässt sich zwar auch der NITF- und G2-Content in ein ansprechendes HTML-Dokument überführen. Es gebe aber eine zunehmende Zahl von Nutzern, so erklärt es der IPTC, “die nur mit ‘reinen’ Web-Techniken arbeiten wollen, also mit HTML statt mit XML”. Und im Hinblick auf hNews wird im IPTC nach Auskunft seines geschäftsführenden Direktors Michael Steidl überlegt, ob nicht beide Metadaten-Konzepte, also hNews und rNews, in einer Art Hybridlösung in HTML integriert werden können.

Inwieweit der Entwurf für rNews mit der frühen Versionskennung 0.1 nun von Content-Anbietern aufgegriffen und dann weiterentwickelt wird, wird interessant zu beobachten sein. Geradezu euphorisch hat sich schon mal der W3C-Experte fürs semantische Web, Ivan Herman, geäußert: Mit Hilfe von rNews könnten alle großen Online-News-Portale der Welt – “von Associated Press bis AFP, oder von der New York Times bis zur Süddeutschen Zeitung” ihre Nachrichtenbeiträge mit Metadaten in RDFa bereichern und diese so in Anwendungen fürs semantische Web einbringen. “Das ist aufregend!”

Posted in Im Lauf der Zeit | Tagged , , | 1 Comment

Java-Browser für NewsCodes

Rund 60 Vokabulare seiner NewsCodes hat das Presse-Standardisierungsgremium IPTC jetzt mit einer speziellen Browser-Software verfügbar gemacht. Der IPTC G2 Scheme Browser präsentiert sich als schlankes Java-Tool, das die verfügbaren Vokabulare herunterlädt und in unterschiedlichen Ansichten darstellt.

Den jeweiligen NewsCode – hier im Beispiel die Definitionen für die Art einer Nachricht mit der Bezeichnung ninat (News Item Nature) – kann man sich auch in der XML-Ansicht anzeigen lassen, was dann auszugsweise so aussieht:

<concept id="ninattext">
<conceptId created="2008-01-29T00:00:00+00:00" qcode="ninat:text"/>
<type qcode="cpnat:abstract"/>
<name xml:lang="en-GB">Text Item(s)</name>
<definition xml:lang="en-GB">Text content in a News/PackageItem</definition>
</concept>
<concept id="ninatpicture">
<conceptId created="2008-01-29T00:00:00+00:00" qcode="ninat:picture"/>
<type qcode="cpnat:abstract"/>
<name xml:lang="en-GB">Picture Item(s)</name>
<definition xml:lang="en-GB">Picture content in a News/PackageItem</definition>
</concept>
<concept id="ninatgraphic">
<conceptId created="2008-01-29T00:00:00+00:00" qcode="ninat:graphic"/>
<type qcode="cpnat:abstract"/>
<name xml:lang="en-GB">Still Graphic Item(s)</name>
<definition xml:lang="en-GB">Still (un-animated) graphic content in a News/PackageItem</definition>
</concept>
<concept id="ninataudio">
<conceptId created="2008-01-29T00:00:00+00:00" qcode="ninat:audio"/>
<type qcode="cpnat:abstract"/>
<name xml:lang="en-GB">Audio Item(s)</name>
<definition xml:lang="en-GB">Audio content in a News/PackageItem</definition>
</concept>
<concept id="ninatvideo">
<conceptId created="2008-01-29T00:00:00+00:00" qcode="ninat:video"/>
<type qcode="cpnat:abstract"/>
<name xml:lang="en-GB">Video Item(s)</name>
<definition xml:lang="en-GB">Video  content in a News/PackageItem</definition>
</concept>

Stehen die NewsCodes in verschiedenen Sprachen bereit wie die Subject Codes mit ihren 1400 Begriffen für die inhaltliche Kategorisierung von Nachrichten, so kann man die jeweils benötigte Sprache (Deutsch, Englisch, Französisch, Spanisch, Italienisch, Japanisch) in einer Auswahlliste aufrufen. Die von dpa-Mediatec entwickelte Software stellt auch XSLT-Dateien für die Umwandlung der XML-Daten in Formate wie HTML oder CSV (Datenstrukturen von Komma getrennt) bereit.

Posted in Im Lauf der Zeit | Tagged , , | Leave a comment

Meta-Tags für mehr Quellen-Ehrlichkeit im Web

Zwei neue Meta-Tags sollen den Google News dabei helfen, die Original-Informationen von den Copy-Paste-Berichten zu unterscheiden: Mit <meta name=”original-source” content=”Original-URL”> sollen Web-Sites nach dem Vorschlag von Google kenntlich machen, wer eine Information zuerst verbreitet hat. Ein zweiter Meta-Tag – <meta name=”syndication-source” content=”URL”> – soll die Website angeben, die Nachrichten an andere “syndiziert”, also die  Weiterverwendung zulässt.

Zur Angabe der “original-source” erklärte das Google News Blog: “Wir geben zu, dass dies mitunter schwierig zu bestimmen ist. Aber es ist die Absicht dieses Tags, harte Arbeit und journalistische Leistung zu belohnen”. Google will nun Erfahrungen mit den neuen Meta-Tags sammeln, um eine sinnvolle Verwendung zu bestimmen. “Indem wir diesen Tag starten, bitten wir die Anbieter von Publikationen, an einem Experiment mitzuwirken, bei dem wir hoffen, dass es die Google News und letztlich auch den Online-Journalismus verbessert. Wenn festgestellt werde, dass eine Website die Metatags missbrauche, werde Google die Metatags dieser Website entweder ignorieren oder die Website von den Google News entfernen, kündigte das Unternehmen an. “Je akkurater Metadaten draußen im Web verwendet werden, desto besser wird das Web sein.”

Posted in Im Lauf der Zeit | Tagged , | Leave a comment