XML-Ecke

Struktur in den Content!

IPTC treibt Entwicklung von rNews voran

Mit dem neuen Projekt schema.org kommt langsam Bewegung ins semantische Web. Da passt es, dass auch der International Press Telecommunications Council (IPTC) die Entwicklung seines neuen Standards rNews vorantreibt. Auf einem Arbeitstreffen in Berlin billigte die Organisation die Version 0.5 des Standards, der erst im April  vorgestellt wurde. Die “draft version” berücksichtigt die Erfahrungen aus den ersten Tests zur Umsetzung von rNews.

Das Markup von rNews, so erklärte Stuart Myles während der Beratungen in Berlin, bemühe sich um einen ausgewogenen Kompromiss zwischen einer möglichst einfachen Anwendung ohne tiefgreifende Änderungen an bestehenden HTML-Dokumenten und einer einfachen Nutzung ohne komplizierte Software-Werkzeuge zum Parsen, also zur Syntaxanalyse von rNews. Die Änderungen machen das Modell eingängiger und einfacher. So wird nun nicht mehr von “Tags”, sondern von “Concepts” gesprochen – als Basisklasse für Angaben zum Inhalt von Nachrichten . Die zunächst als eigene Klasse festgelegten Angaben zur Überschrift mit der Bezeichnung “Hed” wurden unter den Eigenschaften der Klasse NewsItem subsumiert. Und die bisherige Klasse TickerSymbol wurde nun zu den Eigenschaften von Organization gestellt.

Der IPTC will auch Möglichkeiten für das Mapping, für die Transformation von rNews in andere Formate anbieten, darunter HTML5-Mikrodaten und JSON. Für Verleger soll es damit so einfach wie möglich gemacht werden, rNews in bestehende Workflows einzubinden. “rNews erschließt den Wert der Veröffentlichung von Metadaten bei Online-News, indem es dafür einen einfach zu verwenden Standard bereitstellt, der ausschließlich Web-Technologien verwendet”, erklärte Myles, der die Arbeitsgruppe Semantisches Web beim IPTC leitet und sich bei Associated Press um Nachrichtenformate kümmert. Bis zum nächsten IPTC-Treffen im Oktober soll rNews die Entwurfsphase hinter sich lassen und in der Version 1.0 vorgelegt werden.

Die vom IPTC gepflegten XML-Formate NewsML oder NITF sind vor allem dazu gedacht, Nachrichten-Feeds in die Content-Management-Systeme der Medienunternehmen zu bringen. Diese können den aktuellen Content dann als HTML-Dokumente mit semantischen Metadaten in ihre Web-Angebote bringen. Ob dabei rNews, das schlichtere Mikroformat hNews oder eine künftige Lösung im Rahmen des Suchmaschinen-Projekts schema.org zum bestimmenden Standard werden wird, entscheiden vermutlich nicht zuletzt auch wirtschaftliche Interessen im Spannungsfeld zwischen Medienunternehmen und Suchmaschinen-Betreibern.

Posted in Im Lauf der Zeit | Tagged , , , | Leave a comment

Google und Bing wollen mehr Semantik im Web

Mehrere Suchmaschinen haben ein eigenes Vokabular entwickelt, um mit semantischen Ergänzungen der HTML-Struktur einer Webseite die Qualität der Internet-Suche zu verbessern. Die Initiatoren von schema.org – unter ihnen Google, Bing und Yahoo – fordern die Anbieter von Web-Inhalten auf, diese Ergänzungen in ihre Dokumente einzufügen, “um es den Nutzern einfacher zu machen, relevante Informationen im Web zu finden”. Bei den Festlegungen von schema.org handelt es sich um Mikrodaten: Diese maschinenlesbaren Tags innerhalb des HTML5-Standards verstehen sich als einfachere Alternative zu RDFa, der HTML-Umsetzung des (Resource Description Frameworks), aber auch zu Mikroformaten wie XFN.

Das Vokabular umfasst zunächst eine relativ schlichte Hierarchie von Datentypen und “Dingen” (Things) mit lediglich sieben Kategorien: CreativeWork, Event, Intangible, Organization, Person, Place und Product. Der gesamte Bereich der Natur kommt in diesem Vokabular zunächst nicht vor. Für Erweiterungen des Vokabulars nennt schema.org Empfehlungen und erklärt, dass sinnvolle Erweiterungen in das Kernvokabular von schema.org übernommen werden können.

Die Mikrodaten werden als Attribute zu den Tags div und span angegeben. Ähnlich wie im RDF-Konzept werden sie in Form eines URI (Uniform Resource Identifier) angegeben:

<div itemscope itemtype="http://schema.org/Event"><!-- URI für den Item-Typ "Event" -->
<div itemprop="name">Pressekonferenz</div>
<span itemprop="description">Vorstellung von schema.org</span>
  Termin:
<time itemprop="startDate" datetime="2011-06-07T19:30">  7. Juni 2011, 19.30 Uhr <!-- HTML5-Tag time -->
</div>

Google hat ein Online-Tool bereitgestellt, um die erweiterte Auszeichnung mit schema.org-Attributen zu testen. Das Vokabular hat bislang die Versionsbezeichnung 0.9 – eine erste finale Version soll im Laufe dieses Jahres kommen.

Posted in Im Lauf der Zeit | Tagged , , , , | 1 Comment

rNews: Nachrichten fürs semantische Web

Wie? Schon wieder ein neues Nachrichtenformat?! Not really. Der soeben vom International Press Telecommunications Council (IPTC) vorgestellte Entwurf für einen neuen Standard mit der Bezeichnung rNews will die Veröffentlichung von aktuellem Content auf Webseiten so mit Metadaten anreichern, dass der News-Content fürs semantische Web aufbereitet werden kann.

Die inhaltlich nichtssagende Abfolge von HTML-Tags wie <p> (Absatz) oder <h1> (Überschrift 1. Ordnung) soll –  so die Absicht der Protagonisten des semantischen Webs im World-Wide-Web-Konsortium (W3C) oder anderen Zusammenhängen – ergänzt werden um eindeutige Kennzeichnungen zur Bedeutung bestimmter Abschnitte. Mit HTML5 werden zwar einige neue semantische Tags eingeführt wie <article> oder <time>. Die Konzepte für das semantische Web reichen aber weit darüber hinaus. Ihr Vorteil: Web-Inhalte lassen sich dann exakter von Suchmaschinen auswerten und können von Anwendungen direkt für die Verwendung in anderen Medien genutzt und mit anderen Daten zusammengeführt werden, etwa für eine App auf mobilen Geräten.

Die rNews ähneln dem Format der hNews, das von Associated Press fürs technische Hosting von Online-Ausgaben kleinerer Zeitungen in den USA genutzt wird. Das hNews-Format gehört zu den sogenannten Mikroformaten, die ein HTML-Dokument um vereinbarte semantische Attribute ergänzen. Hier werden semantische Attribute festgelegt wie etwa class=”source-org” für den Namen des Nachrichtenanbieters, class=”dateline” für den Ort, an dem die Nachricht verfasst oder gesendet wurde oder class=”geo” für Geodaten von Orten, die in der Nachricht genannt werden.

Während die hNews auf dem für Blogs entwickelten Mikroformat hAtom aufbauen, ist das neue rNews-Format eine Weiterentwicklung des Resource Description Frameworks (RDF). Auf RDF baut auch das Konzept der Linked Data auf, das auswertbare Beziehungen zwischen Begriffen und anderen Ressourcen ermöglicht. RDF verwendet zentrale Bausteine des Webs, wie den Uniform Resource Identifier (URI) mit seiner Unterkategorie URL, die den Ort einer Web-Ressource (URL) angibt. Ein URI ermöglicht eine weltweit eindeutige Kennzeichnung einer Ressource, muss aber keine URL sein. Damit können Aussagen nach dem Modell Subjekt-Aussage-Objekt erstellt werden, die semantische Beziehungen zwischen verschiedenen Dingen ausdrücken. Eine solche Beziehung wird als “Triple” bezeichnet. In seiner Erläuterung des RDF-Konzepts verwendet der IPTC dafür das Beispiel des Twitter-Accounts von Stuart Myles, der bei AP für die Nutzung von XML-Formaten und Metadaten zuständig ist: Ein RDF-Triple ist hier die Aussage: Die Person “Stuart Myles” (Subjekt) verwendet (Aussage) den Twitter-Namen “@smyles” (Objekt). Dabei wird das Subjekt in Form eines URI dargetellt: “http://www.iptc.org/authority/per/stuart_myles”.

Als RDFa wird nun eine Technik bezeichnet, die das RDF-Modell in HTML-Dokumente integriert. Die Bezeichnungen für die einzelnen Elemente einer semantischen Zuordnung werden in einem eigenen Namensraum festgelegt, der mit dem HTML-Dokument aufgerufen wird. Mikroformate wie hNews können von jedem HTML-Parser (also einer Software zur Analyse und Darstellung von HTML-Dokumenten) gelesen werden, weil nur eingeführte HTML-Bausteine wie “class” verwendet werden. Bei RDFa gibt es zusätzliche Elemente, so dass für die Auswertung des semantischen Gehalts solcher Dokumente ein besonderer RDFa-Parser benötigt wird wie etwa das Firefox-Plugin Fuzz.

Worum es den einzelnen rNews-Elementen geht, wird ganz gut in diesem Modell des IPTC deutlich:

Datenmodell von rNews, Quelle: IPTC

Datenmodell von rNews, Quelle: IPTC

Die Metadaten zur semantischen Kennzeichnung einzelner Bereiche des HTML-Dokuments werden – hier am Beispiel des Verfassernamens und der Quelle einer Nachricht – in einer leicht nachvollziehbaren Form eingebettet:

<div>Credit: 
<!-- hier wird der URI des Verfassers deklariert  -->
 
<span rel="rnews:createdBy">
   <span about="http://blogs.reuters.com/goran-tomasevic/ typeof="rnews:Person">
   <span property="rnews:name">Goran Tomasevic</span>
</span>
</span>
<span rel="rnews:copyrightedBy rnews:hasSource rnews:providedBy">
 
<!-- und hier wird der URI der News-Quelle deklariert -->
   <span about="http://www.reuters.com" typeof="rnews:Organization">
   <span property="rnews:name">Reuters</span>
</span>
</span>
</div>

Mit Blick auf die Beziehung zwischen rNews und den IPTC-Formaten NITF und NewsML-G2 betont die Standardisierungsorganisation die unterschiedlichen Verwendungszwecke: Bei NITF und G2 geht es um die standardisierte Übermittlung von Nachrichten in einem B2B-Kontext. Mit Hilfe von XSLT-Umwandlungen lässt sich zwar auch der NITF- und G2-Content in ein ansprechendes HTML-Dokument überführen. Es gebe aber eine zunehmende Zahl von Nutzern, so erklärt es der IPTC, “die nur mit ‘reinen’ Web-Techniken arbeiten wollen, also mit HTML statt mit XML”. Und im Hinblick auf hNews wird im IPTC nach Auskunft seines geschäftsführenden Direktors Michael Steidl überlegt, ob nicht beide Metadaten-Konzepte, also hNews und rNews, in einer Art Hybridlösung in HTML integriert werden können.

Inwieweit der Entwurf für rNews mit der frühen Versionskennung 0.1 nun von Content-Anbietern aufgegriffen und dann weiterentwickelt wird, wird interessant zu beobachten sein. Geradezu euphorisch hat sich schon mal der W3C-Experte fürs semantische Web, Ivan Herman, geäußert: Mit Hilfe von rNews könnten alle großen Online-News-Portale der Welt – “von Associated Press bis AFP, oder von der New York Times bis zur Süddeutschen Zeitung” ihre Nachrichtenbeiträge mit Metadaten in RDFa bereichern und diese so in Anwendungen fürs semantische Web einbringen. “Das ist aufregend!”

Posted in Im Lauf der Zeit | Tagged , , | 1 Comment

XFN vernetzt Google Buzz in alle Richtungen

XFN rel="me"Vor sechs Jahren war XFN, das XHTML Friends Network, das erste Mikroformat, das die schlichte Struktur von HTML um ein bisschen Semantik bereichert hat: Mit dem Attribut “rel” (relationship) sollte die persönliche Beziehung eines Web-Anbieters zu einer verlinkten Site deutlich gemacht werden. Blogger organisieren so ihre Blogroll – in WordPress wird XFN von vornherein unterstützt. Auch Friendster, LinkedIn und das Google-Netzwerk Orkut verwenden XFN.

Mit Google Buzz erhält XFN jetzt neue Schubkraft. Dem neuen Angebot geht es offenbar weniger darum, sich als Alternative zu Twitter und Facebook in Stellung zu bringen. Vielmehr will Buzz die bestehenden Profile im sozialen Web zusammenführen, auf einer neuen Plattform aggregieren. XFN ist der Klebstoff fürs soziale Web:

  • Das Attribut rel=”friend” definiert eine freundschaftliche Beziehung zu der verlinkten Website.

  • Das Attribut rel=”me” definiert eine Identitätsbeziehung zu der verlinkten Website: Die gerade angezeigte Webseite und die verlinkte Webseite sind derselben Person zugehörig.
    Um dem Browser mitzuteilen, was das Attribut bedeutet, wird im Header der Webseite eine Referenz zum XFN-Standard angegeben:

<head profile="http://gmpg.org/xfn/11">

Beim kommenden Standard HTML 5 wird das nicht mehr erforderlich sein – da sind die XFN-Attribute “friend” und “me” bereits integriert.

Mit rel=”me” können Twitter und Blogs im sozialen Netz an Google Buzz angekoppelt werden:

<a rel="me" href="http://twitter.com/pedromiramis/">meine Tweets</a>

Dazu hat Google auf der Profilseite des einzelnen Nutzers die Möglichkeit vorgesehen, Internet-Adressen hinzuzufügen und als “eigene Seite” festzulegen. Standardmäßig sind bereits die persönlichen Accounts in anderen Google-Angeboten wie Picasa oder YouTube ausgewählt.

In der Gegenrichtung kann der Buzz-Stream als Atom-Feed in beliebige Webseiten eingebunden werden, die Adresse lautet

http://buzz.googleapis.com/feeds/_user_/public/posted

(statt user ist der jeweilige Nutzername einzugeben)

Google hat bereits vor geraumer Zeit eine Software-Schnittstelle entwickelt, um Web-Anwendungen gezielt nach Freundschafts- und Identitätsbeziehungen suchen zu lassen, die Google Social Graph API. Der Google-Crawler erfasst die XFN-Angaben zu diesen Beziehungen und erstellt daraus einen “Sozialen Graphen”, einen Index von Beziehungen zwischen Personen. Neben XFN kommt auch FOAF (Friend of a Friend) zum Einsatz, das eine weitergehende Beschreibung von persönlichen Beziehungen zulässt. Genutzt wird die Social Graph API etwa von der Google-Plattform OpenSocial für die Entwicklung von Anwendungen für Soziale Netzwerke. Und bei Google Buzz werden die Ergebnisse, die der “soziale Crawler” aufgrund des Link-Attributs rel=”me” aufspürt, dazu verwendet, Postings aus anderen Quellen wie etwa Twitter in Buzz einzubinden.

Google hat angekündigt, die Buzz-API nach und nach zu erweitern und weitere Standards oder Protokolle anzubinden. Wie beim Wave-Projekt – um das es inzwischen ziemlich still geworden ist – soll Buzz von allen frei genutzt und den eigenen Bedürfnissen angepasst werden. Zum Start von Buzz ist die Verwaltung der persönlichen Kontakte noch nicht besonders gut gelöst – hier greift Buzz einfach auf die Kontaktdaten der Google Mail zu. In ersten Tagen wurden diese auch als “Follower” öffentlich gemacht – inzwischen aber ist Google nach einiger Kritik dabei, die Kontaktverwaltung nachzubessern und die Sichtbarkeit der persönlichen Kontakte einzuschränken.

Posted in Im Lauf der Zeit | Tagged , | 1 Comment