Archive for the 'web3.0' Category

Unterwegs ins Semantische Netz oder: Was sind XFN, FOAF und SPARQL?

sw-horz-w3c.pngVor wenigen Tagen zitterten Blogosphäre und Web2.0 vor Aufregung: Yahoo, so hieß es, würde große Nachrichten bekanntgeben, die das Netz zu einem besseren Ort machen würde. Also konnte es schon einmal nicht um die Übernahme durch AOL gehen. Tatsächlich gab Yahoo am Freitag bekannt, dass das Unternehmen sich von nun an als Evangelist des Semantic Web betrachten will.

Worum geht es im Semantic Web? Die grundlegende Idee ist schnell erzählt: Die Informationen, die wir auf unseren Homepages, in unseren Blogs und Social Networks hinterlegen, sollen maschinenlesbar werden. Die nur für Menschen entzifferbare Aussage “X ist ein Kollege von mir” soll nun zusätzlich mit Hilfe von Mikroformaten wie XFN (kurz für “XHTML Friends Network”) oder FOAF (Akronym für “Friend of a Friend”) derart ausgezeichnet werden, dass ein entsprechender Parser sie verstehen kann. Das kann dann zum Beispiel so aussehen (“friend met” verweist hier auf eine befreundete Person, die der Verlinkende schon im wirklichen Leben getroffen hat):


<a href="http://www.wissenswerkstatt.net/" rel="friend met">Marcs Wissenswerkstatt</a>

Davon erhofft man sich einen besseren Zugriff auf die im Web 2.0 gespeicherten Informationen. So könnte man zum Beispiel mit Personensuchmaschinen auf diese Weise nicht nur erfahren, auf welchen Internetseiten der Name einer Person auftaucht, sondern zudem auch Dinge wie: die eigene Homepage der Person, die Seiten seiner Freunde und Arbeitskollegen, seine Profile bei Facebook, Twitter, Xing usw. Es geht also um die Übertragung der realen Beziehungsnetzwerke (“everyone’s connected”) in die digitale Sphäre (“social graph”). Das Internet wird dadurch sehr viel enger und aussagekräftiger verlinkt als bisher:

Linked Data is about using the Web to connect related data that wasn’t previously linked, or using the Web to lower the barriers to linking data currently linked using other methods.

So praktisch das sein mag, wenn es darum geht, seine Freunde und Bekannte im Netz ausfindig zu machen – ganz abgesehen davon, dass ein derart ausgezeichnetes Netz die wildesten Träume vieler Netzwerkanalytiker übertreffen würde –, so problematisch ist diese Entwicklung, was die Missbrauchmöglichkeiten betrifft.

Was geschieht, wenn meine Seite (und damit meine virtuelle Identität) mit einer Person aus organisiert-kriminellem oder terroristischem Umfeld per Mikroformat verknüpft werden? Die Stärke eines dezentralen Systems (es gibt keinen “Datenbankadministrator, der Gott spielen kann”) werden hier zur Schwäche. Denn: Wer garantiert, dass die Verbindungen zu meiner Person, die auf anderen Webseiten formuliert werden, auch tatsächlich zutreffen? Denn die meisten dieser Formate sind, anders als LinkedIn-, Xing- oder Facebook-Freundschaften, nicht nur dezentral, sondern auch unidirektional, d.h. sie müssen nicht bestätigt werden.

Verschärft wird dieses Problem noch durch die Permanenz des Internet: wenn einmal an einer Stelle eine Beziehungsaussage über mich getroffen wurde, kann diese möglicherweise nicht mehr gelöscht werden, da sie über Archive aufgefunden werden kann (so scheint das Google Social Graph API, kurz: SGAPI, Beziehungsdaten zu cachen) oder bereits in zahlreiche FOAF-Datensätze auf anderen Seiten integriert wurde. Denn eine sinnvolle Möglichkeit, Beziehungsclaims zu zitieren (“Ich sage, dass Markus gesagt hat, Anne ist mit Peter befreundet”) gibt es meines Wissens noch nicht.

Das hat zur Folge, darauf hat danbri in seinem VortragSocial Network Portability” am 1. März in Cork hingewiesen, dass derartige Aussagen nicht als Tatsachenaussagen betrachtet werden dürfen, sondern nur als Behauptungen (“Claims”). Ein Semantic Web-Parser muss also in Betracht ziehen, welche Person hinter einer FOAF-Aussage steckt.

Einen möglichen Ausweg stellen Systeme wie SPARQL (kurz für “SPARQL Protocol and RDF Query Language”) da, die nicht nur die Aussagen aus dem semantischen Netz ziehen, sondern sich darüber hinaus auch dafür interessieren, an welcher Stelle und von welchem Akteur die Aussagen gemacht wurden. Hier geht es also nicht nur um die Frage: “Wer ist mit Peter befreundet?” sondern um “Wer sagt, dass Anne mit Peter befreundet ist?”

Momentan laufen erste Versuche, WordPress SPARQL-freundlich zu machen (“SparqlPress”). Damit werden zwei Ziele verfolgt: zum einen über einzelne Blogs Daten bereitzustellen, die mit SPARQL abgerufen werden können. Dadurch kann dann zum anderen das eigene Blog in eine automatisch aktualisierte Kontaktdatenbank verwandelt werden. Auf Grundlage der eigenen Kontaktliste können dann Aktivitätsströme erstellt werden, ähnlich zu den Facebook- und Xing-Statusmeldungen oder zu neuen Lifestream-Diensten wie Friendfeed. Mit dem FOAFnaut gibt es auch schon ein graphisches Interface, um das eigene FOAF-Kontaktnetzwerk zu visualisieren.

Wahrscheinlich lassen sich die Veränderungen, die sich durch die allmähliche Etablierung des Semantischen Netzes für das digitale Identitäts- und Beziehungsmanagement ergeben werden, überhaupt noch nicht in ihrer ganzen Tragweite erkennen. Zwei Punkte scheinen mir jedoch absehbar:

  • Klar ist, dass die in diesem Ausmaß noch nie da gewesene Archivierung und öffentliche Zugänglichkeit von Beziehungsdaten das digitale Identitäts- und Beziehungsmanagement zu einer sehr viel komplexeren Aufgabe machen wird. Das Prinzip “security through obscurity” wird es für diesen Bereich nur noch rudimentär geben: meine sozialen Beziehungen sind nicht mehr Teil der Privatsphäre, sondern öffentlich einsehbar.
  • Das professionelle Reputationsmanagement wird ein sehr wichtiges Geschäftsfeld werden, da für den Normalbürger die Kanäle gar nicht mehr absehbar sind, über die Informationen über die eigene Person verbreitet werden. Früher konnte man sich schon denken, wer ein Gerücht in die Welt gesetzt hat, heute sind es anonyme Maschinen, die Informationen aus unterschiedlichen Quellen kombinieren und als Ergebnis dann z.B. ein mit Ortskoordinaten versehenes Bild der eigenen Familie ausspucken.
  • Zugleich wird sich dadurch auch das Wesen der Suchmaschinen verändern, die nicht mehr allein zum Abrufen von Textinhalten genutzt werden können, sondern auch zum Abfragen von Beziehungsdaten.

Frei nach Kisch könnte man also schlussfolgern: Mit den Möglichkeiten des Semantischen Netz wird das Leben schöner, aber unsicherer.



Verwandte Artikel:
  • Netzwerkvisualisierung mit TwitterFriends
  • Netz, Web und Graph: Idealismus reloaded
  • Die Zukunft des WWW (Richard MacManus)
  • Netz, Web und Graph: Idealismus reloaded

    Das weltweite Netz ist nicht genug – zumindest, wenn es nach Tim Berners-Lee geht, der einer umfangreichen Graphisierung des WWW das Wort redet. Doch zunächst einmal zurück an den Anfang: Mit Netz ist, so Berners-Lee, in erster Linie die Vernetzung von Rechnern gemeint, die es ermöglicht, Nachrichten von einem Rechner zu einem anderen zu schicken, ohne sich Gedanken darüber zu machen, auf welchen Wegen die Nachricht letztendlich ankommt. Das Netz ist also die auf den TCP/IP-Protokollen beruhende Infrastruktur bzw. das Internet.

    Das WWW liegt wieder eine Ebene darüber, da hier nicht mehr die Rechner, geschweige denn die physischen Kabel, interessieren, sondern die Dokumente: “Now you could browse around a sea of documents without having to worry about which computer they were stored on. Simpler, more powerful. Obvious, really.” Das WWW ist ein Textuniversum.

    Darüber liegt aber noch eine weitere Ebene, auf der nicht mehr die Dokumente die Schlüsselrolle spielen, sondern die Dinge selbst:

    net-web-ggg.png

    Dahinter kann sich alles mögliche verstecken, ab wichtigsten jedoch: die Menschen: “Its not the Social Network Sites that are interesting — it is the Social Network itself. The Social Graph. The way I am connected, not the way my Web pages are connected.” In diesem Netz der Dinge – einem diskursiven Universum im weitesten Sinne – ist das Paradigma nicht mehr der Hyperlink, der zwei Texte miteinander verbindet, sondern z.B. die mit Mikroformaten wie XFN ausdrückbare Beziehung zwischen Dingen, Personen, Leidenschaften etc. oder mit Friends-of-a-Friend-Daten (FOAF) Berners-Lee schlägt vor, dieses Paradigma mit dem Begriff “Giant Global Graph” (kurz: GGG) zu bezeichnen. Eine URI bezeichnet nicht mehr zwangsläufig ein Dokument im WWW, sondern kann auch auf eine Person oder einen Gegenstand verweisen (ich würde hierfür den Begriff des Aktanten vorschlagen, der sich in der soziologischen Actor-Network-Theorie eingebürgert hat).

    Ich bin skeptisch, ob sich dieser Begriff durchsetzen wird. Aber die Idee, dass man mit jedem Schritt auf eine abstraktere Protokollebene Kontrolle abgibt und dafür neue Handlungsmöglichkeiten dazugewinnt, hat etwas. Nur fallen mir auf Anhieb nur wenige Beispiele für funktionierende Techniken des Umgangs mit sozialen Graphen dieser Art ein. Was ich bezeichnender für das neue Netz finde, ist die Tatsache, dass das Netz tatsächlich als Netz (oder von mir aus als Graph) wahrgenommen wird. Denn auf der Anwenderebene wurde das WWW nur selten wirklich als Netzwerk wahrgenommen, sondern eher als Menge von WWW-Seiten, die jeweils auf andere Seiten verweisen. Aber eben nicht als Ganzes. So hießen z.B. die Übersichten von Websites “Sitemap” – und eine “Karte” ist etwas ganz anderes als ein “Netzwerk”, dessen Punkte nicht räumlich verortenbar sind, sondern nur in der Beziehung zu ihren Nachbarn. Der Übergang zum social graph bezeichnet also eine Enträumlichung des WWW.

    Dazu gehört dann aber auch, und an dieser Stelle finde ich den Gedanken sehr verführerisch, die deutlichere Trennung der sozialen Netzwerke von der darunterliegenden Protokollebene des WWW: Ein social graph muss demnach nicht zwangsläufig auf dem WWW basieren, sondern kann auch in anderen Gebieten “wildern” wie z.B. der materiellen Umwelt, wie auch das WWW prinzipiell auch auf anderen Protokollen laufen könnte als den Internet. Und schon gar nicht passt es dazu, dass Netzwerke an Plattformen wie Facebook, Orkut, Xing etc. gebunden sein müssen. Der Giant Global Graph führt also zu einer Entmaterialisierung oder Idealisierung der sozialen Netzwerke.

    Weiterlesen zu diesem Thema:

    • Nicholas Carr fragt sich, ob das Denken in Graphen tatsächlich den Sprung von der Mathematik in den Alltag schaffen wird und ob Facebook tatsächliche eine neue Plattform darstellt oder doch nur eine Webseite.
    • Olaf Kolbrück ist sich nicht ganz sicher, ob die Bezeichnung GGG wirklich ernst gemeint ist, sieht aber durchaus die Notwendigkeit, einen Begriff für dieses Phänomen zu finden, der nicht nach Windows 3.1 klingt.
    • Siggi fühlt sich an eigene Gedanken über die Verteilung von Tupeln im Wissensraum erinnert.
    • Anna Zelenka bezweifelt, das wir Menschen tatsächlich von dem GGG-Paradigma profitieren, oder ob es nicht eigentlich nur an Computer adressiert ist.
    • Auch JD weist auf die Enträumlichung hin und stellt eine bezeichnende Nähe zum Korzybskischen Aphorismus “the map is not the territory” fest.
    • Konstantin Klein kann dem Paradigmenwechseln nicht viel abgewinnen, sondern sieht das Ganze nur als Hype.
    • Auch der Guardian ist skeptisch und zitiert Dave Winers Vorschlag, den mathematischen Jargon beiseite zulassen und Graphen einfach wieder Netzwerke zu nennen – womit man sich allerdings dem Risiko aussetzt, verstanden zu werden.


    Verwandte Artikel:
  • Visualisierung von Netzwerken: GraphGear
  • Unterwegs ins Semantische Netz oder: Was sind XFN, FOAF und SPARQL?
  • Woher kommen die Nutzer?
  • Metadaten in Tageszeitungen – oder: wie man Merkel und Putin verwechseln kann

    Sehr schön, was der “Medienhacker” Dave Winer auf dieser Seite mit dem NY-Times-Newsfeed anstellt: er filtert aus allen neuen Nachrichtenartikel die Keywords heraus und erstellt eine Rangfolge. Beziehungsweise: nicht er macht das alles, sondern ein Script. Möglich wird das dadurch, dass alle (jedenfalls die meisten) Artikel der NY Times auf vorbildliche Weise mit Metadaten versehen sind. So findet man zum Beispiel im Quelltext der Nachricht “In Iran, Putin Warns Against Military Action” folgende Metadaten, die sich alle per Computer auslesen und weiterverarbeiten lassen:

    • Kurzbeschreibung
    • Schlagworte
    • Datum
    • Titel
    • Autor
    • Themengebiete
    • Personen
    • Geographischer Kontext
    • Ressort

    Ein Computer könnte diesen Metadaten entnehmen, dass sich das berichtete Ereignis auf Russland und den Iran bezieht, dass es mit Vladimir Putin und Mahmoud Ahmadinejad zu tun hat sowie dass es dabei um Internationale Beziehungen und Atomenergie geht. Damit lässt sich schon eine Menge anfangen und ohne großen Aufwand Verknüpfungen zu anderen Nachrichten herstellen. Fehlt nur eine geeignete Darstellungsform, um der Leser könnte durch diese Angaben “Pivot-Browsen“, also immer wieder einen neuen Ausgangspunkt auswählen, sei es ein Ort, eine Person oder ein Thema, und von dort aus neue Beiträge entdecken. Vielleicht sogar in anderen Nachrichtenquellen oder gar Medienformen (GoogleEarth, Youtube, Facebook).

    Sieht man sich dagegen die deutschen überregionalen Tageszeitungen an, so kann man nur einen gewaltigen Aufholbedarf feststellen. Der Artikel zum selben Thema in der Süddeutschen Zeitung wartet zwar mit einigen Keywords auf, doch diese wollen mir doch tatsächlich weißmachen, es gehe in dem Artikel um “Bush”, “Cofi Annan”, “Saddam”, den “Bundestag” oder um “Steuer”. Davon, dass “Saddam” und “Cofi Annan” schon etwas länger Geschichte sind, will ich gar nicht reden.

    Weiter zur FAZ, die ebenfalls einen Artikel zu Putins Solidaritätserklärung parat hat. Aber auch hier ist das semantische Netz zerrissen, denn ein Computer würde zu dem Ergebnis kommen, der Artikel thematisiere “Merkel”, die “EU”, “Steuern” und irgendeine “Wahl”.

    Die Welt hat keinen Artikel direkt zu dem Thema, also habe ich mir einen Beitrag über die Terrorrisiken der Putinreise ausgesucht. Auch hier führen die Metadaten zunächst ins Leere, denn mit “Urlaub”, “Sport” und “Satire” hat das nichts zu tun. Aber halt! Ganz am Ende der Keywords doch noch ein paar sinnvolle Hinweise: Iran, Russland, Wladimir Putin, Staatsbesuch, Atomenergie, Anschlag. Gar nicht übel, aber schlecht auszuwerten.

    Zum Schluss noch zur taz, wo mich wieder nur Standardkeywords erwarten, außer hinter der Wahl von Schlagworten wie “politische Karikatur”, “Cartoons” und “Comic” steckt eine tiefere Absicht? Klar ist: ein Computer würde beim Versuch, diesen Humor zu entschlüsseln, versagen.



    Verwandte Artikel:
  • Online verdrängt Print: Studie befasst sich mit den Digitalisierungsverlierern Tageszeitungen
  • Gruscheln als Alternative zum Nachrichtenkonsum?
  • Das lange 19. Jahrhundert der Zeitungsmacher