Archive for the 'metadaten' Category

Stau in der metaroll: Technorati-API auf 500 Anfragen limitiert

Leider komme ich zur Zeit überhaupt nicht hinterher, die neuen Blogs in die metaroll einzutragen. Für die Neuenträge hole ich mir die aktuellen Metadaten über ein Blog für gewöhnlich über das Technorati-API. Zugleich aktualisiere ich auch die Technorati-Authority für die metaroll-Channels (Wissenschaft, Medien, Jobs und Genuss) über dieses API. Aber ich kann über meinen API-Key nur 500 Anfragen machen:

You can make up to 500 Technorati API calls per day, and there is no charge.

Hat jemand Erfahrungen damit, welche Möglichkeiten es gibt, dieses Limit etwas zu erhöhen? Es darf auch etwas kosten, aber bei Technorati habe ich dazu keine Angaben gefunden und auf Anfragen scheint man dort auch nicht allzu eifrig zu reagieren (sprich: keine Antwort).



Verwandte Artikel:
  • Hinweis: Stau in der metaroll
  • Neue Maßzahl für die Metaroll
  • Wissenschaftsblogs – eine Erfolgsgeschichte
  • Schöne neue Suchwelt: Googles Schnittstellenexperimente

    Google-Suchergebnisse lassen sich seid kurzem nicht mehr nur als schnöde Liste mit kurzen Ausschnitten darstellen (“list view”), sondern auch chronologisch (“timeline view”), räumlich (“map view”) oder als Ansicht, in der Orte, Zeitpunkte, Maße oder Bilder hervorgehoben werden. So kann man zum Beispiel die Treffer eines Suchbegriffs dahingehend einschränken, dass sie zwischen 100m und 1km liegen sollen – wofür auch immer das nützlich sein soll. Oder man erhält eine Zeitleiste, auf der alle in den Texten vorkommende Jahreszahlen markiert sind (hier frage ich mich dann schon, wie 2000 als Jahreszahl von 2000 als einfache quantitative Angabe unterschieden wird).

    google2.png

    Deutlich intuitiver ist natürlich die ortsbezogene Sichtweise, die allerdings zunächst nicht viel mehr ist als Geomashup der Suchergebnisse anhand des Vorkommens bestimmter Schlüsselwörter, die auf Orte hinweisen. Damit lässt sich aber auch der Suchraum geographisch einschränken, zoomt man in dem rechten Kartenausschnitt und klickt auf “Update Results”, dann erhält man auch nur die Treffer, die sich auf die angezeigte Region beziehen.

    google1.png

    Etwas ähnliches hatte ich mit meiner mivino-Anwendung auch schon einmal unternommen: Damit lassen sich die RSS-Feeds der partizipierenden Weinblogs je nach den im Text vorkommenden Winzern, Weinlagen oder Orten in einem GoogleMaps-Mashup darstellen. Das Ziel ist dabei etwas ähnliches, nur auf eine bestimmte Thematik bezogen und dadurch auch etwas feinkörniger (letztlich sollen dann auch einzelne Lagen geokodiert werden).

    riefling.png

    Das Muster dahinter ist dasselbe: Es geht darum, Daten aus dem WWW mit Hilfe von Zuordnungs-Tabellen oder künstlicher Intelligenz auf eine andere Weise als üblich darzustellen. Oder besser: dem Anwender eine Vielzahl an Möglichkeiten anzubieten, durch die Datensätze zu browsen. Als “Personalisierung” würde ich das jedoch noch nicht bezeichnen, erst dann, wenn z.B. sich Google die regionale oder zeitliche Eingrenzung merken würde. Eigentlich ist es ja erstaunlich, wie lange sich die Suchmaschinen-Trefferliste als Darstellungsform gehalten hat und Veränderungen nur behutsam eingeführt wurden, wie Kate Green bemerkt: “Die Web-Suche wird sich wohl verändern, doch nur schrittweise. Schließlich ist es ein schmaler Grad zwischen nützlichen Zusatzinfos und der Überfrachtung des Nutzers mit neuen Funktionen.”

    Dabei gibt es zwei verschiedene Möglichkeiten: Zum einen die Einführung bestimmter Metadaten, mit denen eine Ressource z.B. nach Datum oder Ort kodiert werden kann. Die Standards hierzu gibt es bereits (z.B. GeoRSS in den Varianten Simple und GML), das Problem ist nur der Aufwand bei der Einfügung dieser Daten. Sehr viel eleganter finde ich daher die zweite Möglichkeit, den Computer diese Zuordnungen selbst machen zu lassen (siehe diese Demoanwendung). Wenn in einem Text der “Eifelturm” erwähnt wird, sollte es möglich sein, einen Pin fünf Kilometer südlich vom Nürburgring in die Karte zu stecken – bzw. aus den weiteren Wörtern im Kontext des Begriffs herauszulesen, ob dies der gemeinte Ort ist. Vielleicht das ganze dann noch durch eine Community “korrekturlesen” lassen oder gleich bei häufig verwendeten Begriffen auf die große Zahl geokodierter Wikipedia-Artikel zugreifen, die mittlerweile schon eine sehr brauchbare semantische Geodatenbank darstellen.



    Verwandte Artikel:
  • Wird Google die Spielregeln für das Social Networking verändern?
  • Was ist Googles Open Social und wozu brauche ich das?
  • Google AdPlanner: Das Ende der Online-Mediaplanung?
  • Metadaten in Tageszeitungen – oder: wie man Merkel und Putin verwechseln kann

    Sehr schön, was der “Medienhacker” Dave Winer auf dieser Seite mit dem NY-Times-Newsfeed anstellt: er filtert aus allen neuen Nachrichtenartikel die Keywords heraus und erstellt eine Rangfolge. Beziehungsweise: nicht er macht das alles, sondern ein Script. Möglich wird das dadurch, dass alle (jedenfalls die meisten) Artikel der NY Times auf vorbildliche Weise mit Metadaten versehen sind. So findet man zum Beispiel im Quelltext der Nachricht “In Iran, Putin Warns Against Military Action” folgende Metadaten, die sich alle per Computer auslesen und weiterverarbeiten lassen:

    • Kurzbeschreibung
    • Schlagworte
    • Datum
    • Titel
    • Autor
    • Themengebiete
    • Personen
    • Geographischer Kontext
    • Ressort

    Ein Computer könnte diesen Metadaten entnehmen, dass sich das berichtete Ereignis auf Russland und den Iran bezieht, dass es mit Vladimir Putin und Mahmoud Ahmadinejad zu tun hat sowie dass es dabei um Internationale Beziehungen und Atomenergie geht. Damit lässt sich schon eine Menge anfangen und ohne großen Aufwand Verknüpfungen zu anderen Nachrichten herstellen. Fehlt nur eine geeignete Darstellungsform, um der Leser könnte durch diese Angaben “Pivot-Browsen“, also immer wieder einen neuen Ausgangspunkt auswählen, sei es ein Ort, eine Person oder ein Thema, und von dort aus neue Beiträge entdecken. Vielleicht sogar in anderen Nachrichtenquellen oder gar Medienformen (GoogleEarth, Youtube, Facebook).

    Sieht man sich dagegen die deutschen überregionalen Tageszeitungen an, so kann man nur einen gewaltigen Aufholbedarf feststellen. Der Artikel zum selben Thema in der Süddeutschen Zeitung wartet zwar mit einigen Keywords auf, doch diese wollen mir doch tatsächlich weißmachen, es gehe in dem Artikel um “Bush”, “Cofi Annan”, “Saddam”, den “Bundestag” oder um “Steuer”. Davon, dass “Saddam” und “Cofi Annan” schon etwas länger Geschichte sind, will ich gar nicht reden.

    Weiter zur FAZ, die ebenfalls einen Artikel zu Putins Solidaritätserklärung parat hat. Aber auch hier ist das semantische Netz zerrissen, denn ein Computer würde zu dem Ergebnis kommen, der Artikel thematisiere “Merkel”, die “EU”, “Steuern” und irgendeine “Wahl”.

    Die Welt hat keinen Artikel direkt zu dem Thema, also habe ich mir einen Beitrag über die Terrorrisiken der Putinreise ausgesucht. Auch hier führen die Metadaten zunächst ins Leere, denn mit “Urlaub”, “Sport” und “Satire” hat das nichts zu tun. Aber halt! Ganz am Ende der Keywords doch noch ein paar sinnvolle Hinweise: Iran, Russland, Wladimir Putin, Staatsbesuch, Atomenergie, Anschlag. Gar nicht übel, aber schlecht auszuwerten.

    Zum Schluss noch zur taz, wo mich wieder nur Standardkeywords erwarten, außer hinter der Wahl von Schlagworten wie “politische Karikatur”, “Cartoons” und “Comic” steckt eine tiefere Absicht? Klar ist: ein Computer würde beim Versuch, diesen Humor zu entschlüsseln, versagen.



    Verwandte Artikel:
  • Online verdrängt Print: Studie befasst sich mit den Digitalisierungsverlierern Tageszeitungen
  • Gruscheln als Alternative zum Nachrichtenkonsum?
  • Das lange 19. Jahrhundert der Zeitungsmacher