Daily Archive for Oktober 17th, 2007

Metadaten in Tageszeitungen – oder: wie man Merkel und Putin verwechseln kann

Sehr schön, was der “Medienhacker” Dave Winer auf dieser Seite mit dem NY-Times-Newsfeed anstellt: er filtert aus allen neuen Nachrichtenartikel die Keywords heraus und erstellt eine Rangfolge. Beziehungsweise: nicht er macht das alles, sondern ein Script. Möglich wird das dadurch, dass alle (jedenfalls die meisten) Artikel der NY Times auf vorbildliche Weise mit Metadaten versehen sind. So findet man zum Beispiel im Quelltext der Nachricht “In Iran, Putin Warns Against Military Action” folgende Metadaten, die sich alle per Computer auslesen und weiterverarbeiten lassen:

  • Kurzbeschreibung
  • Schlagworte
  • Datum
  • Titel
  • Autor
  • Themengebiete
  • Personen
  • Geographischer Kontext
  • Ressort

Ein Computer könnte diesen Metadaten entnehmen, dass sich das berichtete Ereignis auf Russland und den Iran bezieht, dass es mit Vladimir Putin und Mahmoud Ahmadinejad zu tun hat sowie dass es dabei um Internationale Beziehungen und Atomenergie geht. Damit lässt sich schon eine Menge anfangen und ohne großen Aufwand Verknüpfungen zu anderen Nachrichten herstellen. Fehlt nur eine geeignete Darstellungsform, um der Leser könnte durch diese Angaben “Pivot-Browsen“, also immer wieder einen neuen Ausgangspunkt auswählen, sei es ein Ort, eine Person oder ein Thema, und von dort aus neue Beiträge entdecken. Vielleicht sogar in anderen Nachrichtenquellen oder gar Medienformen (GoogleEarth, Youtube, Facebook).

Sieht man sich dagegen die deutschen überregionalen Tageszeitungen an, so kann man nur einen gewaltigen Aufholbedarf feststellen. Der Artikel zum selben Thema in der Süddeutschen Zeitung wartet zwar mit einigen Keywords auf, doch diese wollen mir doch tatsächlich weißmachen, es gehe in dem Artikel um “Bush”, “Cofi Annan”, “Saddam”, den “Bundestag” oder um “Steuer”. Davon, dass “Saddam” und “Cofi Annan” schon etwas länger Geschichte sind, will ich gar nicht reden.

Weiter zur FAZ, die ebenfalls einen Artikel zu Putins Solidaritätserklärung parat hat. Aber auch hier ist das semantische Netz zerrissen, denn ein Computer würde zu dem Ergebnis kommen, der Artikel thematisiere “Merkel”, die “EU”, “Steuern” und irgendeine “Wahl”.

Die Welt hat keinen Artikel direkt zu dem Thema, also habe ich mir einen Beitrag über die Terrorrisiken der Putinreise ausgesucht. Auch hier führen die Metadaten zunächst ins Leere, denn mit “Urlaub”, “Sport” und “Satire” hat das nichts zu tun. Aber halt! Ganz am Ende der Keywords doch noch ein paar sinnvolle Hinweise: Iran, Russland, Wladimir Putin, Staatsbesuch, Atomenergie, Anschlag. Gar nicht übel, aber schlecht auszuwerten.

Zum Schluss noch zur taz, wo mich wieder nur Standardkeywords erwarten, außer hinter der Wahl von Schlagworten wie “politische Karikatur”, “Cartoons” und “Comic” steckt eine tiefere Absicht? Klar ist: ein Computer würde beim Versuch, diesen Humor zu entschlüsseln, versagen.



Verwandte Artikel:
  • Online verdrängt Print: Studie befasst sich mit den Digitalisierungsverlierern Tageszeitungen
  • Gruscheln als Alternative zum Nachrichtenkonsum?
  • Das lange 19. Jahrhundert der Zeitungsmacher
  • Blogcharts über Blogcharts – Versuch einer Interpretation

    Der Popkulturjunkie hat entdeckt, dass man sich mit Hilfe des GoogleReaders die Anzahl der Feed-Abonnenten anzeigen lassen kann, was ihn dazu animiert hat, auf Grundlage dieser Daten eine weitere Rangliste der Topblogs zu erstellen. Die eigentlich spannende Frage ist nun: Wie hängen die verschiedenen “Blogcharts” zusammen? Oder: hängen sie überhaupt zusammen? Um darauf eine Antwort zu finden, habe ich mir die drei Listen näher angesehen und mit R ein paar Werte berechnet:

    Die Deutschen Blogcharts, die GoogleReader-Charts und die metaroll erfassen unterschiedliche PräferenzenZunächst fällt auf, dass der Überlappungsgrad der Listen nicht allzu groß ist. Anders ausgedrückt: nur 26 Weblogs finden sich sowohl auf den ersten 50 Plätzen der Deutschen Blogcharts und den Google Feedreader-Abozahlen wieder. Weitere 19 Blogs werden in den GoogleReader-Zahlen und der metaroll gelistet und 18 Blogs sind in den Deutschen Blogcharts und der Metaroll vertreten. Nur 15 Weblogs findet man auf allen drei Listen – ein Indiz dafür, dass sie tatsächlich etwas anderes erfassen (für die 15 gemeinsamen Blogs findet man allerdings eine mittlere (Rang-)Korrelation zwischen den Listen um 0.6, nur zwischen den Google-Charts und der metaroll liegt sie mit 0.4 deutlich darunter, ist allerdings nicht mehr signifikant). Zur Veranschaulichung hier ein kleiner Ausflug in die Mengenlehre:

    Oben rechts finden sich also die “Link-Blogs”, also die Topblogs, was die Verlinkung über Trackbacks und Pings angeht, oben links die “Feed-Blogs”, die am häufigsten mit dem GoogleReader gelesen werden und unten die “Roll-Blogs”, die am häufigsten in den Blogrolls verlinkt werden. Unterscheiden sich diese drei Gruppen nur hinsichtlich der jeweiligen Operationalisierung von Wichtigkeit? Oder stecken dahinter auch inhaltliche Unterschiede? Möglicherweise liefert die Liste der Blogs, die nur in einer bestimmten Liste auftauchen, einen Hinweis darauf.

    Schwierig. Ganz vorsichtig würde ich die Hypothese formulieren, dass in den GoogleReader-Charts technische Blogs stark vertreten sind, was vielleicht auch daran liegt, dass die Leserschaft dieser Blogs mit RSS-Feeds am besten vertraut ist. In den Deutschen Blogcharts findet man einige politische Blogs, die in den anderen Listen nicht auftauchen. Vielleicht ein Indiz dafür, dass vor allem kontroverse Themen häufiger verlinkt und kommentiert werden? Auf der metaroll schließlich überproportional viele lyrische und Notizbuchblogs, deren Wertschätzung man per Blogrollverlinkung ausdrückt, aber nicht unbedingt durch einen Trackback.

    UPDATE: Bei Henning Krieg geht es weiter mit den wichtigsten Blawgs (= juristischen Blogs) in Deutschland und Blognation hat dasselbe für Technologieblogs unternommen.



    Verwandte Artikel:
  • metaroll – nächste Schritte
  • Das einzige Wissenschaftsblog in der A-Liste
  • Als der Retweet noch Trackback hieß
  • Galerie des Wissens 1.0 (Folge 3)

    Und schon wieder sind 25 USD plus Mehrwertsteuer notwendig, damit ich zu dem Wissen komme, das ich brauche.

    Schade.



    Verwandte Artikel:
  • Galerie des Wissens 1.0 (Folge 2)
  • Galerie des Wissens 1.0
  • Galerie 2.0 oder: Schon einmal einen Rupprecht Geiger gejpged?