XML-Ecke

Struktur in den Content!

World Publishing Expo: Auf der Suche nach dem Liquid Newsroom

Eigentlich mag ich ja keine Messen. Dieses merkwürdige Verhältnis zwischen Standmenschen und Messebesuchern ist einer offenen Kommunikation eher abträglich. Aber an keinem anderen Ort kommen Anbieter von aktueller Redaktionstechnik so konzentriert zusammen wie auf der World Publishing Expo, die in diesem Jahr in Berlin stattfand. Neben einigen spezielleren Fragen wie dem Nachrichtenformat NewsML G2 und der Zukunft der Satellitentechnik bei der Übertragung von Agenturinhalten war ich vor allem neugierig auf Ansätze, die sich im weitesten Sinne mit dem Schlagwort “Liquid Newsroom” verbinden ließen:

Einen Liquid Newsroom hat Steffen Konrath als Nachrichtenportal eingerichtet, das aus etwa 130 frei zugänglichen Internet-Quellen gespeist wird. Auf der World Publishing Expo trat Konrath am Dienstag auf einem Panel mit der Frage auf: Is it time to rethink our newsrooms, yet again? Das habe ich leider verpasst, da ich nur am Montag auf der Messe war. Dem Trendbüro sagte Konrath: “Im Liquid Newsroom fließt ein Nachrichtenstrom genau zu einem bestimmten Thema zusammen. Der Begriff ‘liquid’ soll ausdrücken, dass der Nachrichtenraum sich parallel zu den Themen dynamisch anpassen muss. Alles im Fluss zu halten, besonders bei sich verschiebender Quellenlage und mit der Verifikation von Nachrichten, erzwingt einen anderen Umgang mit Aktualität und Aktualisierung.”

In einem allgemeineren Sinne lässt sich ein Liquid Newsroom auch verstehen als eine Infrastruktur für redaktionelle Workflows, die das Zusammenarbeiten von einem festen Ort befreit und ins Netz verlagert – analog zu anderen Liquid-Konzepten wie Liquid Feedback für die Gestaltung von demokratischen Entscheidungsprozessen. Strukturiert wird ein solcher Liquid Newsroom vom Newscycle als Prozess von der

  • Themenfindung mit anschließender Recherche und Schreiben über die
  • redaktionelle Bearbeitung bis hin zur
  • Veröffentlichung in unterschiedlichen Formaten und Kanälen.
Auf der World Publishing Expo war ein Newscycle auch mal ganz wörtlich verstanden zu sehen.

Newscycle

Die meisten Firmen auf der Messe bieten Lösungen für das letzte Drittel im Newscycle an. Da gibt es etwa die italienische Software-Firma d-share, die ihr neues CMS Kolumbus vorstellt, das den Content von News-Anbietern wie der Zeitung La Repubblica im XML- oder JSON-Format annimmt und mit Hilfe des Frameworks Spring in einfach zu gestaltende Templates einspielt – für die Ausgabe in einem Web-Portal sowie auf Tablet und Smartphone.

Näher am Liquid Newsroom dran ist die Redaktionslösung Content-X, die von der Hamburger ppi Media GmbH entwickelt wurde und die Datenbank DC-X einsetzt. Content-X ermöglicht eine enge Anbindung an Adobe Indesign und unterstützt damit sowohl die Produktion von Printprodukten auf der Basis von PDF als auch die Ausgabe in digitale Kanäle. In DC-X werden alle Inhalte wie Texte, Fotos, Videos, E-Mails oder Informationen aus RSS-Feeds als “Asset” gespeichert, zusammen mit ihren Metadaten wie den IPTC-Angaben bei Bildern. Alle Textinformationen schickt DC-X in eine “semantische Engine”, die mitgelieferte Metadaten um zusätzliche Stichwörter ergänzt. Im browserbasierten Story Editor können Texte erstellt und mit Fotos ergänzt werden. Integriert ist ein Workflow- und Aufgabenmanagement, so dass die Bearbeitung von Inhalten einzelnen Personen oder Gruppen zugewiesen werden kann. Diese können sich an jedem Ort der Welt befinden, an dem sie einen Internetzugang haben. Die Redaktion kann so vollständig in die Cloud verlegt werden. DC-X kann auch die Meldungen und Fotos von Nachrichtenagenturen aufnehmen, die Nutzer von Content-X können auch direkt in diesem System auch den Termin- und Themenplanungsservice dpa agenda nutzen.

Fürs Redaktionsmanagement in der Cloud bietet sich auch das Desk-Net an, das die gemeinsame Themenplanung ebenso unterstützt wie Aufgabenplanung und redaktionelle Dienstpläne. Termine und Aufgaben können in gängige Kalenderformate exportiert werden, so dass die Redaktionsmitglieder diese auf ihrem Smartphone verfügbar haben.

Posted in Im Lauf der Zeit | Tagged , , , , , , , | 1 Comment

rNews: Nachrichten fürs semantische Web

Wie? Schon wieder ein neues Nachrichtenformat?! Not really. Der soeben vom International Press Telecommunications Council (IPTC) vorgestellte Entwurf für einen neuen Standard mit der Bezeichnung rNews will die Veröffentlichung von aktuellem Content auf Webseiten so mit Metadaten anreichern, dass der News-Content fürs semantische Web aufbereitet werden kann.

Die inhaltlich nichtssagende Abfolge von HTML-Tags wie <p> (Absatz) oder <h1> (Überschrift 1. Ordnung) soll –  so die Absicht der Protagonisten des semantischen Webs im World-Wide-Web-Konsortium (W3C) oder anderen Zusammenhängen – ergänzt werden um eindeutige Kennzeichnungen zur Bedeutung bestimmter Abschnitte. Mit HTML5 werden zwar einige neue semantische Tags eingeführt wie <article> oder <time>. Die Konzepte für das semantische Web reichen aber weit darüber hinaus. Ihr Vorteil: Web-Inhalte lassen sich dann exakter von Suchmaschinen auswerten und können von Anwendungen direkt für die Verwendung in anderen Medien genutzt und mit anderen Daten zusammengeführt werden, etwa für eine App auf mobilen Geräten.

Die rNews ähneln dem Format der hNews, das von Associated Press fürs technische Hosting von Online-Ausgaben kleinerer Zeitungen in den USA genutzt wird. Das hNews-Format gehört zu den sogenannten Mikroformaten, die ein HTML-Dokument um vereinbarte semantische Attribute ergänzen. Hier werden semantische Attribute festgelegt wie etwa class=”source-org” für den Namen des Nachrichtenanbieters, class=”dateline” für den Ort, an dem die Nachricht verfasst oder gesendet wurde oder class=”geo” für Geodaten von Orten, die in der Nachricht genannt werden.

Während die hNews auf dem für Blogs entwickelten Mikroformat hAtom aufbauen, ist das neue rNews-Format eine Weiterentwicklung des Resource Description Frameworks (RDF). Auf RDF baut auch das Konzept der Linked Data auf, das auswertbare Beziehungen zwischen Begriffen und anderen Ressourcen ermöglicht. RDF verwendet zentrale Bausteine des Webs, wie den Uniform Resource Identifier (URI) mit seiner Unterkategorie URL, die den Ort einer Web-Ressource (URL) angibt. Ein URI ermöglicht eine weltweit eindeutige Kennzeichnung einer Ressource, muss aber keine URL sein. Damit können Aussagen nach dem Modell Subjekt-Aussage-Objekt erstellt werden, die semantische Beziehungen zwischen verschiedenen Dingen ausdrücken. Eine solche Beziehung wird als “Triple” bezeichnet. In seiner Erläuterung des RDF-Konzepts verwendet der IPTC dafür das Beispiel des Twitter-Accounts von Stuart Myles, der bei AP für die Nutzung von XML-Formaten und Metadaten zuständig ist: Ein RDF-Triple ist hier die Aussage: Die Person “Stuart Myles” (Subjekt) verwendet (Aussage) den Twitter-Namen “@smyles” (Objekt). Dabei wird das Subjekt in Form eines URI dargetellt: “http://www.iptc.org/authority/per/stuart_myles”.

Als RDFa wird nun eine Technik bezeichnet, die das RDF-Modell in HTML-Dokumente integriert. Die Bezeichnungen für die einzelnen Elemente einer semantischen Zuordnung werden in einem eigenen Namensraum festgelegt, der mit dem HTML-Dokument aufgerufen wird. Mikroformate wie hNews können von jedem HTML-Parser (also einer Software zur Analyse und Darstellung von HTML-Dokumenten) gelesen werden, weil nur eingeführte HTML-Bausteine wie “class” verwendet werden. Bei RDFa gibt es zusätzliche Elemente, so dass für die Auswertung des semantischen Gehalts solcher Dokumente ein besonderer RDFa-Parser benötigt wird wie etwa das Firefox-Plugin Fuzz.

Worum es den einzelnen rNews-Elementen geht, wird ganz gut in diesem Modell des IPTC deutlich:

Datenmodell von rNews, Quelle: IPTC

Datenmodell von rNews, Quelle: IPTC

Die Metadaten zur semantischen Kennzeichnung einzelner Bereiche des HTML-Dokuments werden – hier am Beispiel des Verfassernamens und der Quelle einer Nachricht – in einer leicht nachvollziehbaren Form eingebettet:

<div>Credit: 
<!-- hier wird der URI des Verfassers deklariert  -->
 
<span rel="rnews:createdBy">
   <span about="http://blogs.reuters.com/goran-tomasevic/ typeof="rnews:Person">
   <span property="rnews:name">Goran Tomasevic</span>
</span>
</span>
<span rel="rnews:copyrightedBy rnews:hasSource rnews:providedBy">
 
<!-- und hier wird der URI der News-Quelle deklariert -->
   <span about="http://www.reuters.com" typeof="rnews:Organization">
   <span property="rnews:name">Reuters</span>
</span>
</span>
</div>

Mit Blick auf die Beziehung zwischen rNews und den IPTC-Formaten NITF und NewsML-G2 betont die Standardisierungsorganisation die unterschiedlichen Verwendungszwecke: Bei NITF und G2 geht es um die standardisierte Übermittlung von Nachrichten in einem B2B-Kontext. Mit Hilfe von XSLT-Umwandlungen lässt sich zwar auch der NITF- und G2-Content in ein ansprechendes HTML-Dokument überführen. Es gebe aber eine zunehmende Zahl von Nutzern, so erklärt es der IPTC, “die nur mit ‘reinen’ Web-Techniken arbeiten wollen, also mit HTML statt mit XML”. Und im Hinblick auf hNews wird im IPTC nach Auskunft seines geschäftsführenden Direktors Michael Steidl überlegt, ob nicht beide Metadaten-Konzepte, also hNews und rNews, in einer Art Hybridlösung in HTML integriert werden können.

Inwieweit der Entwurf für rNews mit der frühen Versionskennung 0.1 nun von Content-Anbietern aufgegriffen und dann weiterentwickelt wird, wird interessant zu beobachten sein. Geradezu euphorisch hat sich schon mal der W3C-Experte fürs semantische Web, Ivan Herman, geäußert: Mit Hilfe von rNews könnten alle großen Online-News-Portale der Welt – “von Associated Press bis AFP, oder von der New York Times bis zur Süddeutschen Zeitung” ihre Nachrichtenbeiträge mit Metadaten in RDFa bereichern und diese so in Anwendungen fürs semantische Web einbringen. “Das ist aufregend!”

Posted in Im Lauf der Zeit | Tagged , , | 1 Comment

Java-Browser für NewsCodes

Rund 60 Vokabulare seiner NewsCodes hat das Presse-Standardisierungsgremium IPTC jetzt mit einer speziellen Browser-Software verfügbar gemacht. Der IPTC G2 Scheme Browser präsentiert sich als schlankes Java-Tool, das die verfügbaren Vokabulare herunterlädt und in unterschiedlichen Ansichten darstellt.

Den jeweiligen NewsCode – hier im Beispiel die Definitionen für die Art einer Nachricht mit der Bezeichnung ninat (News Item Nature) – kann man sich auch in der XML-Ansicht anzeigen lassen, was dann auszugsweise so aussieht:

<concept id="ninattext">
<conceptId created="2008-01-29T00:00:00+00:00" qcode="ninat:text"/>
<type qcode="cpnat:abstract"/>
<name xml:lang="en-GB">Text Item(s)</name>
<definition xml:lang="en-GB">Text content in a News/PackageItem</definition>
</concept>
<concept id="ninatpicture">
<conceptId created="2008-01-29T00:00:00+00:00" qcode="ninat:picture"/>
<type qcode="cpnat:abstract"/>
<name xml:lang="en-GB">Picture Item(s)</name>
<definition xml:lang="en-GB">Picture content in a News/PackageItem</definition>
</concept>
<concept id="ninatgraphic">
<conceptId created="2008-01-29T00:00:00+00:00" qcode="ninat:graphic"/>
<type qcode="cpnat:abstract"/>
<name xml:lang="en-GB">Still Graphic Item(s)</name>
<definition xml:lang="en-GB">Still (un-animated) graphic content in a News/PackageItem</definition>
</concept>
<concept id="ninataudio">
<conceptId created="2008-01-29T00:00:00+00:00" qcode="ninat:audio"/>
<type qcode="cpnat:abstract"/>
<name xml:lang="en-GB">Audio Item(s)</name>
<definition xml:lang="en-GB">Audio content in a News/PackageItem</definition>
</concept>
<concept id="ninatvideo">
<conceptId created="2008-01-29T00:00:00+00:00" qcode="ninat:video"/>
<type qcode="cpnat:abstract"/>
<name xml:lang="en-GB">Video Item(s)</name>
<definition xml:lang="en-GB">Video  content in a News/PackageItem</definition>
</concept>

Stehen die NewsCodes in verschiedenen Sprachen bereit wie die Subject Codes mit ihren 1400 Begriffen für die inhaltliche Kategorisierung von Nachrichten, so kann man die jeweils benötigte Sprache (Deutsch, Englisch, Französisch, Spanisch, Italienisch, Japanisch) in einer Auswahlliste aufrufen. Die von dpa-Mediatec entwickelte Software stellt auch XSLT-Dateien für die Umwandlung der XML-Daten in Formate wie HTML oder CSV (Datenstrukturen von Komma getrennt) bereit.

Posted in Im Lauf der Zeit | Tagged , , | Leave a comment

Meta-Tags für mehr Quellen-Ehrlichkeit im Web

Zwei neue Meta-Tags sollen den Google News dabei helfen, die Original-Informationen von den Copy-Paste-Berichten zu unterscheiden: Mit <meta name=”original-source” content=”Original-URL”> sollen Web-Sites nach dem Vorschlag von Google kenntlich machen, wer eine Information zuerst verbreitet hat. Ein zweiter Meta-Tag – <meta name=”syndication-source” content=”URL”> – soll die Website angeben, die Nachrichten an andere “syndiziert”, also die  Weiterverwendung zulässt.

Zur Angabe der “original-source” erklärte das Google News Blog: “Wir geben zu, dass dies mitunter schwierig zu bestimmen ist. Aber es ist die Absicht dieses Tags, harte Arbeit und journalistische Leistung zu belohnen”. Google will nun Erfahrungen mit den neuen Meta-Tags sammeln, um eine sinnvolle Verwendung zu bestimmen. “Indem wir diesen Tag starten, bitten wir die Anbieter von Publikationen, an einem Experiment mitzuwirken, bei dem wir hoffen, dass es die Google News und letztlich auch den Online-Journalismus verbessert. Wenn festgestellt werde, dass eine Website die Metatags missbrauche, werde Google die Metatags dieser Website entweder ignorieren oder die Website von den Google News entfernen, kündigte das Unternehmen an. “Je akkurater Metadaten draußen im Web verwendet werden, desto besser wird das Web sein.”

Posted in Im Lauf der Zeit | Tagged , | Leave a comment