Archive for the 'internet' Category

Off The Grid – Wie man die digitalen Erstwähler (nicht) erreicht

Einen Begriff aus dem US-Wahlkampf 2012 werden wir uns auch in Deutschland merken müssen: Off the Grid. So bezeichnet Zac Moffatt, der Chefwissenschaftler von Mitt Romney, diejenigen Wähler, die man nicht mehr über die klassische Kommunikation – in erster Linie TV – erreichen kann. Seine These: Gerade bei einem Kopf-an-Kopf-Rennen kann die Mobilisierung dieser Wählergruppe wahlentscheidend werden.

Das wichtigste Rezept von Moffatt: Onlinewerbung, insbesondere auf Grundlage eines thematisch ausgerichteten Targetings. Das heißt: Den Wählern wird nicht wie im Fernsehen immer dieselbe Botschaft vorgesetzt, die eine möglichst große Schnittmenge der individuellen Interessen darstellt, also bei möglichst vielen Wählern funktioniert,
sondern jede Wählergruppe bekommt auf sie zugeschnittene Botschaften. Wie das funktioniert, erklärt dieses PBS-Video sehr gut:

Menschen, die sich besonders stark für Außenpolitik interessieren – was zum Beispiel daran festgemacht werden kann, dass sie bestimmte außenpolitische Webseiten häufig besuchen – erhalten Informationen darüber, was der Kandidat in diesem Politikfeld vorhat. Familien erfahren, wie der Kandidat sich für Kinder und Jugendliche einsetzt. Und reichen WählerInnen wird die Angst vor Steuererhöhungen genommen.

Welche Bedeutung hat das Phänomen in Deutschland? Gibt es in Deutschland ein vergleichbares Phänomen von Wählern, die durch das klassische Medienraster fallen? Oder klappt Politik hier nach wie vor mit “Bild, Bams und Glotze”? Wenn man sich zum Beispiel die Internetdurchdringung des Bayerischen Landtags ansieht und einfach durchzählt, wie viele der Abgeordneten der dort vertretenen Fraktionen eine Webseite haben (ich spreche gar nicht von Facebook oder Twitter), dann bekommt man den Eindruck, digitale Kommunikation ist für viele Parteien nach wie vor ein Fremdwort. So hat jeder vierte Landtagsabgeordnete der Freien Wähler und immerhin 20% der FDP- und CSU-Abgeordneten keine eigene Webseite. Warum auch. Es gibt ja die Presse und Fernsehen.

Meiner Prognose nach wird es nicht lange dauern, bis die Analog-Politiker das schwer bereuen werden. Das Zauberwort heißt: Erstwähler. In der nächsten Bundestagswahl 2013 werden ca. 4 Mio Menschen das erste Mal an die Wahlurnen treten, die dann zwischen 18 und 22 Jahre alt sein werden. Wenn man auf das Mediennutzungsverhalten dieser jungen Erwachsenen blickt, wird schnell klar: Ein großer Teil dieser Menschen sind Off-the-Grid. Nur noch 48% von ihnen geben eine mittlere bzw. hohe TV-Nutzung an, während 80% von ihnen für eine mittlere bzw. hohe Online-Nutzung stehen (Quelle: TdW 2012).

Das heißt: knapp über die Hälfte der Erstwähler sind über TV-Wahlwerbung und -Talkshowauftritte nur noch schwer erreichbar. Tendenz steigend. Die politische Mobilisierungsaufgabe für die Parteien lautet also: Wie schafft man es, diese 3,5 Prozent der Wähler zu mobilisieren, die man nur noch über das Internet erreicht.



Verwandte Artikel:
  • Wolkige Semantik – Clouds und Grids
  • Netzwerkanalyse von Hashtaglagern

    Twitter-Netzwerkanalysen aus den USA kommen regelmäßig zu dem Ergebnis einer unglaublichen Polarisierung zwischen den Lagern. Demokraten folgen Demokraten. Republikaner folgen Republikanern. Kommunikation zwischen den beiden ist auf das ironische Verwenden der “gegnerischen” Hashtags reduziert.

    Ich gehe schon länger der Frage nach, ob sich diese Beobachtungen auch in der digitalen politischen Kommunikation nachvollziehen lässt. Sehr schnell spricht man ja von “politischen Filterblasen”, die dazu führen, dass man nur Botschaften mitbekommt, die zu der eigenen politischen Einstellung passen.

    Heute war ein guter Tag für die politische Twitter-Kommunikation. Drei politische Ereignisse liefen gleichzeitig ab, die jeweils ziemlich eindeutige Hashtags hatten:

    • der Netzpolitische Kongress der Grünen in Berlin (Hashtag: #nk12)
    • der Parteitag der CSU in München (Hashtag: #csupt12)
    • der deutschlandweite (bzw. europaweite) Aktionstag gegen das EU-Überwachungsprojekt INDECT (Hashtag: #indect)

    Zu diesen drei Hashtags wurden alle relevanten Tweets des 20. Oktober erfasst und ausgewertet. Die folgende Visualisierung zeigt die Twitter-Accounts, die zu einen der drei Hashtags verwendet haben sowie die Follower-Beziehungen zwischen ihnen. Die Einfärbung erfolgt nach den Löwener Modularitätsalgorithmus von Blondel et al. Der Algorithmus analysiert und identifiziert Sub-Communities in großen sozialen Netzwerken.

    Follower network for #nk12 #csupt12 and #indect

    Zwar lassen sich deutliche Cluster zu den untersuchten Hashtags identifizieren, aber trotzdem sind die Twitterer, die sich zu den drei Themen äußern, durch ihre Follower-Netzwerke sehr eng mit auch mit den Personen aus den anderen “Hashtag-Lagern” verbunden. Interessanterweise scheinen viele dieser “lagerübergreifenden” Kontakte über regionale Netzwerke zu lassen: Zum einen hat die piratisch orientierte Anti-Indect-Szene gerade in Berlin viele Verbindungen zu Grünen Netzpolitikern. Zum anderen sind einige bayerischen Politiker der Grünen sehr gut mit ihren Kollegen der CSU verbunden.



    Verwandte Artikel:
  • Spickzettel Netzwerkanalyse (SNA)?
  • Netzwerkanalyse der metaroll
  • Der Aufstieg der Datenwissenschaftler
  • Digitale Stadtentwicklung oder Warum Code for America die Zukunft des digitalen Ehrenamts ist

    Auf Twitter erlebe ich immer wieder merkwürdige Koinzidenzien. Heute Abend zum Beispiel waren zwei meiner Twitter-Freunde in München auf einer Stadtentwicklungsveranstaltung. Unter dem Motto “MitDenken” sind hier die Bürger aufgefordert, sich Gedanken über die Zukunft der Stadt zu machen. Also ein klassischer Bürgerdialog – immerhin mit Onlinefragebogen.

    Parallel dazu wurden auf der US-Konferenz SXSW in Austin, Texas die ersten Ergebnisse des Projekts “Code for America” vorgestellt. Nur ein paar Tweets von den Münchener MitDenkern entfernt, aber trotzdem liegen Welten zwischen den Projekten. Code for America ist eine Initiative mit dem Ziel, ganz praktische Aufgaben und Herausforderungen von Städten auf digitalem Weg zu lösen – mit Hilfe von Apps.

    Das Vorhaben setzt dabei vor allem auf das freiwillige Engagement der digitalen Bürger. Diese werden nicht zum Schneeschippen aufgerufen, aber dazu, eine Crowdsourcing-App zu programmieren “Adopt-a-Hydrant“, die das Freischaufeln von Hydranten intelligent unter den Bürgern verteilt. Eine andere App verzeichnet alle Street-Art-Werke in Philadelphia, könnte aber sehr schnell an andere Zwecke angepasst werden, zum Beispiel wenn es darum geht, die Kunst im Öffentlichen Raum erfahrbar und erlebbar zu machen. DataCouch ist eine Anwendung, die es zum Beispiel Stadtverwaltungen wie auch Bürgern ermöglicht, Datensätze über das Netz zu teilen und in standardisierten Formaten abzurufen, um daraus zum Beispiel weitere Anwendungen zu bauen.

    Hinter dem Vorhaben stecken drei sehr spannende Grundannahmen:

    • Wiederverwertung: Gerade unter kommunalen Sparzwängen (und dies ist eigentlich der Normalzustand) ist es unverantwortlich, dass jede Stadt, jede Gemeinde ihre eigenen Apps bastelt bzw. für viel Geld bei IT-Dienstleistern in Auftrag gibt. Allein, wenn man sich die Webseiten der Kommunen betrachtet, wird schnell deutlich, dass die Vielfalt im Erscheinungsbild der Städte im Web viel größer ist als das immergleiche physische Stadtbild aus “großzügigen Villen im Landhausstil”, 1950er-Jahre-Überbleibseln mit Deutschem Dach gepaart mit brutistischer Dienstgebäudearchitektur. Natürlich ist Vielfalt hübsch, aber nicht wenn sie auf Kosten von Funktionalität, Wartbarkeit und vor allem wichtiger kommunaler Aufgaben geht. Hier kann eine freie und wiederverwertbare Anwendungsinfrastruktur wie “Code for America” sehr sinnvoll sein.
    • Interfacegestaltung: Diesen Punkt hat die Gründerin Jennifer Pahlka vorhin auf ihrem Vortrag in sehr schönen Zitat angebracht: “I believe that interfaces to government can be simple, beautiful, and easy to use.” Warum nicht einmal den Programmiererblick auf die Kommunalpolitik richten. Die städtischen Webseiten, Formulare, Broschüren etc. sind nichts anderes als eine mehr oder weniger gelungene Benutzerschnittstelle für die Politik. Damit bedienen wir die städtischen Funktionen. Warum nicht diesem Aspekt eine Generalüberholung gönnen und dafür sorgen, dass Bürgerbeteiligung sich ähnlich anfühlt wie das Blättern bei Flipboard auf dem iPad? Oder so viel Spaß macht wie das Kommentieren und Posten von Bildern auf Instagram? Oder so produktiv sind wie das gemeinsame Arbeiten an Dokumenten über Dropbox?
    • Digitales Ehrenamt: Ich weiß, Ehrenamt klingt immer viel zu abgedroschen und altmodisch. Man denkt gleich an Rasenmähen im Kindergarten, Kuchenbacken für den Kirchenkaffee oder das Freischaufeln von Hydranten (moment mal?). Bitte nicht falsch verstehen, diese Dinge sind sehr wichtig. Aber warum gibt es so wenige Versuche, den kommenden Generationen der digital natives Möglichkeiten für ein digitales Ehrenamt zu geben? Warum lassen wir die Wikipedianer nicht eine neue Plattform für Ortschroniken schreiben? Warum nicht die jungen Ruby-on-Rails- und Python-Hacker in kommunalen Hackathons eine wiederverwertbare Infrastruktur für kommunale Open-Data-Initiativen entwickeln? Warum nicht die Nachwuchsdesigner und UI-Startups ein elegantes und benutzerfreundliches Interface für die Kommunalpolitik entwickeln?

    Workshops und Ortsbegehungen zur Planung und Verbesserung von Fahrradwegen sind nicht schlecht, sind aber Bürgerbeteiligung im Stil der 1960er/70er Jahre. Wir leben längst in einer digitalen Gesellschaft, also sollten wir auch auf die Fähigkeiten und Kompetenzen ihrer Bewohner zurückgreifen.



    Verwandte Artikel:
  • Quick Response in Spex und Welt
  • Interessante Kriminalprozesse gefällig? Die digitale Bibliothek als Open Content
  • Wenn Social Networks Bundesländer wären …
  • Wie man Shitstorms erkennt und bewertet

    In der letzten Zeit wurde sehr viel über Shitstorms im Web geschrieben und diskutiert. Die zentralen Fragen in den meisten Debatten lauten dabei:

    • Wie gefährlich ist die Flut an kritischen Social-Media-Posts tatsächlich für die betroffenen Marken und Unternehmen?
    • Welchen ökonomischen Schaden nehmen Marken und Unternehmen durch diese verschärfte und oft virale Konsumentenkritik?
    • Wie unterscheidet man einen ausgewachsenen und bedrohlichen Shitstorm von einem Sturm im Wasserglas?
    • Wie erkennt man einen Shitstorm in der Anfangsphase?

    Ich möchte die meteorologische Analogie nicht zu weit treiben. Aber gerade für die ersten beiden Fragen läuft die Debatte viel zu oft in die falsche Richtung. Da hilft der Blick auf Naturkatastrophen: Das schlimmste Erdbeben oder der stärkste Orkan können entweder verheerende Schäden anrichten oder aber spurlos vorübergehen – je nachdem in welcher Gegend sie sich ereignen. Die Versicherer wissen, dass die größten Naturkatastrophen nicht auch die größten Versicherungsschäden zur Folge haben.

    Ganz ähnlich ist es mit den Internet-Shitstorms: Die Indikatoren, die wir hier für die Messung verwenden (z.B. den Viralitätskoeffizienten, den Fail-Quotienten oder dann aggregiert den Krisenindex) beziehen sich nicht auf die Schadenspotentiale für Marke und Umsatz, sondern erst einmal nur auf die “Stärke” der Katastrophe.

    In dem Twittertracking-Tool Brandtweet gibt es seit letzter Woche für das PR-Risikomanagement eine “Shitstorm”-Warnleiste, in der die Marken mit dem höchten Fail-Quotienten abgebildet sind. In Zusammenhang mit dem Buzzverlauf der Sparklines und den Trends lässt sich sehr gut erkennen, ob sich über einer der erfassten 200 wichtigsten Marken in Deutschland gerade ein Internet-Unwetter zusammenbraut: Wenn sowohl der Fail-Quotient als auch das Gesprächsvolumen stark anwachsen, sollten in den PR-Abteilungen die Warnglocken klingeln:

    Ob ein starker Shitstorm auch starke Schäden hervorruft, hängt von vielen Faktoren ab:

    • Verwundbarkeit des Unternehmens
    • Reaktion des Unternehmens
    • Gegenstand der Kritik
    • Involvierte Personen
    • Rechtslage
    • Wirtschaftliche Lage
    • Marktposition
    • Unternehmenskultur

    Während die objektive Stärke von Shitstorms sich mit darauf spezialisierten Methoden und Tools sehr gut beurteilen lässt, steckt die Modellierung und Kartierung der Schadenspotentiale von Shitstorms noch in den Kinderschuhen.



    Verwandte Artikel:
  • Wer vertraut wem? Firmenblogs genießen besonders wenig Vertrauen
  • Deathmatch – das öffentlich-rechtliche Endspiel
  • Virale Kampagnen aus handlungstheoretischer Perspektive
  • Networking auf dem DLD

    Nebenan bei im hübschen Datenblog habe ich mir einmal die Twitter-Diskussionen zur diesjährigen DLD-Konferenz vom Kongressvorabend bis zum heutigen Montag angesehen. Man sieht sehr schön, wie sich die Aufmerksamkeit von Tag zu Tag im Netzwerk verschiebt. Ich bin gespannt, wie sich das zum letzten Tag noch einmal ändert. Außerdem werde ich abschließend auch noch einmal die Twitternachrichten selbst betrachten, um Muster herauszufinden. Das zum Beispiel war der Montag:

    Hier geht’s zum Artikel.



    Verwandte Artikel:
  • Typen digitaler sozialer Netzwerke (Robert Peck)
  • Let’s Mash (Yahoo!)
  • Fugly is the new beautiful (Yahoo! Mash)
  • Der Appstore als Netzwerk – Newsreader, Newsportale und digitale Zeitungen

    Why then the world’s mine network
    Which I with software will open.

    Der Vorteil einer abstrakten Methode wie der Social Network Analysis ist es, dass sich fast alle Daten, die irgendwie zusammenhängen, als Netzwerk betrachten und analysieren lassen. Das Paradebeispiel sind natürlich die Empfehlungsalgorithmen, die Nutzern von Google, Youtube oder Amazon erzählen, was sie sonst noch interessieren könnte. Überall dort, wo es empfohlene Produkte oder Produkte, die andere Kunden auch gekauft haben, gibt, kann man sehr einfach mit den Methoden der Netzwerkanalyse angreifen. Auf diese Weise wird aus den isolierten Paaren oder Mengen verwandter Produkte eine große Verwandtschaftskarte, auf der nicht nur Beziehungen, sondern auch Muster und Schwerpunkte erkennbar sind.

    Ich habe mir einmal den iTunes-Appstore vorgenommen. Auf jeder (bzw. fast jeder) Downloadseite einer App sind weitere fünf Apps verzeichnet, die überdurchschnittlich häufig gemeinsam mit dieser App heruntergeladen oder gekauft werden. Das Netzwerk springt einem hier förmlich entgegen. Wenn man die 240 beliebtesten Apps der Kategorie Nachrichten auf diese Beziehungen hin erfasst, erhält man folgendes Netzwerk der Nachrichten-Applandschaft (Klick zum Vergrößern):

    Social network visualization of app downloads

    Die Größe der Knoten steht für die Anzahl der Bewertungen der Apps – solange es keinen Zugriff auf die Downloadzahlen der Apps gibt, könnte das eine Annäherung an die Bedeutung oder Verbreitung einer App sein. Die Farbe zeigt die unterschiedlichen Cluster von Apps, die besonders eng miteinander verbunden sind: Links in Hellblau und rechts in Dunkelblau sind zwei Cluster von Nachrichtenapps. Rechts findet man die Zeitungsapps von FAZ, Bild, Süddeutsche, Abendzeitung, Weserkurier etc., während links eher die iPad-Varianten von Onlineportalen wie Spiegel, Focus Online, Süddeutsche.de zu finden sind. Oben in Violett ist ein kleines Cluster von redaktionsunabhängigen Newsaggregatoren wie Pulse, Flipboard oder Reeder. Ganz rechts liegt Österreich, während im Süden die Türkei zu finden ist. Dazwischen ein Applecluster mit Apfeltech und Macwelt. Ganz im Norden ist das Review-stärkste Cluster von Nachrichtenaggregatoren und App-Nachrichten-Apps, das von MeinProspekt dominiert wird.

    Die Apps mit den meisten Reviews in dieser Karte sind:

    1. Mein Prospekt XL – 39.382 Reviews
    2. n-tv iPhone edition – 16.140 Reviews
    3. DER SPIEGEL eReader – 12.759 Reviews
    4. FOCUS Online – 10.300 Reviews
    5. DIE WELT – 9.312 Reviews
    6. Flipboard – 6.394 Reviews
    7. BILD HD – 5.722 Reviews
    8. Tagesschau – 5.705 Reviews
    9. NYTimes – 5.533 Reviews
    10. AppTicker Push – 5.524 Reviews

    In dieser Aufzählung fehlt die normale Version von BILD mit 24.146 Reviews, die ein isolierter Knoten ist, da für diese App keine verwandten Apps angegeben sind und auch keine der anderen Apps auf sie verweist – eine echte Anomalie, die ich mir im Moment nicht erklären kann.

    Interessant ist auch der Blick auf die Anzahl der eingehenden Links, d.h. welche Apps besonders häufig als verwandte Apps genannt werden. Der Durchschnitt liegt bei 2,3.  Hier sieht die Liste ganz anders aus:

    1. The Wall Street Journal – 51 Nennungen
    2. AppAdvice – 45 Nennungen
    3. Blastr – 40 Nennungen
    4. NPR for iPad – 39 Nennungen
    5. Flo’s Weblog – 27 Nennungen
    6. eGazety Reader – 27 Nennungen
    7. ??-??? ????? a – 25 Nennungen
    8. SAPO News – 23 Nennungen
    9. DVICE – 20 Nennungen
    10. DER SPIEGEL – 18 Nennungen

    Dieselben Apps erhält man bei der Berechnung des PageRank, d.h. der Wahrscheinlichkeit, beim Abwandern des Netzwerks zufällig auf die verschiedenen Apps zu stoßen. Die Anzahl der Verbindungen zwischen den Apps, also der Vernetzungsgrad ist relativ niedrig, da für jede App nur jeweils 5 verwandte Produkte angezeigt werden – insgesamt sind die 451 Knoten durch 1.055 Kanten verbunden.



    Verwandte Artikel:
  • Kein Besucher bleibt ewig! Zeitungen sollen sich nicht neu erfinden, sondern das Verlinken lernen
  • Zeitungen springen auf den Web 2.0-Zug auf
  • Immer mehr Deutsche lesen Nachrichten im Netz – was macht der Rest im Internet?
  • Der Aufstieg der Datenwissenschaftler

    Eines der wichtigsten Buzzwords im Marktforschungs- und Wissenschaftsjahr 2012 ist mit Sicherheit “Big Data”. Sogar die Zukunft eines Intenretriesen wie Yahoo! wird auf diese Frage zugespitzt: Wie hältst du es mit den großen Daten (dazu auch lesenswert das AdAge-Interview mit dem neuen CEO Scott Thompson)?

    Auf den ersten Blick ist das Phänomen, das sich dahinter verbirgt, nichts neues: es gibt riesige Mengen an Daten, die darauf warten, analysiert und interpretiert zu werden. Diese Datenberge gab es früher auch schon – man denke nur an die gewaltigen Kundentransaktionsdaten, die klassischen Webzugriffslogs oder die Himmelsdaten aus den Observatorien.

    bigdata_network

    Besonders spannend sind folgende Entwicklungen und Dimensionen des Big-Data-Phänomens:

    Demokratisierung der Technik: Zum einen sind die Werkzeuge, um Datensätze in Terabytegröße zu analysieren, mittlerweile demokratisiert. Jeder, der ein paar alte Rechner im Keller stehen hat, kann daraus ein leistungsfähiges Hadoop-Cluster aufbauen und damit in die Analyse großer Daten einsteigen. Die Software, die man für Datenerfassung, Speicherung, Analyse und Visualisierung benötigt, ist größtenteils frei verfügbare Open-Source-Software. Wer zu Hause keine Rechner herumstehen hat, kann sich die Rechenzeit bei Amazon kaufen.

    Ein neues Ökosystem: Mittlerweile hat sich hier eine lebendige Bastlerszene der Big-Data-Hacker entwickelt, die an den verschiedenen Big-Data-Technologien arbeitet und in Präsentationen und Aufsätzen die unterschiedlichen Anwendungsszenarien demonstrieren. Wenn man sich die Biographien der Big-Data-Community ansieht, fällt aber auch, dass man es sehr viel weniger mit Forschergruppen an Universitäten zu tun hat, sondern um Wissenschaftler (“data scientists”), die in den großen Internetunternehmen wie Google, Yahoo, Twitter oder Facebook arbeiten. Das ist zum Beispiel bei der Python-Entwicklergemeinde oder der R-Statistikercommunity anders. Im Augenblick sieht es sogar so aus, als verliefe der typische Karrierepfad an der US-Westküste weg von den Internetgiganten und hin zu neuen Big-Data-Startups.

    Visualisierung von Netzwerken: Die visuelle Darstellung der Daten ist mittlerweile fast wichtiger geworden als klassische statistische Methoden, die nach Kausalitäten suchen. In diesem Zusammenhang hat auch die Netzwerkanalyse wieder stark an Bedeutung gewonnen. Fast alle soziale Phänomene und großen Datensätze von Venture Capitalists bis Katzenbildern können als Netzwerke visualisiert und exploriert werden. Auch hier spielen Open-Source-Software und offene Datenschnittstellen eine große Rolle. Programme wie die Netzwerkvisualisierungssoftware Gephi können sich in naher Zukunft direkt mit den Schnittstellen (APIs) der Plattformen Facebook, Twitter, Wikipedia oder Google verbinden und die abgerufenen Daten gleich weiterverarbeiten.

    Neue Fähigkeiten und Stellenbeschreibungen: Eines der heißesten Buzzwords in der Big-Data-Szene ist der “Data Scientist”, der jetzt in klassischen Unternehmen genauso wie in Internetunternehmen für die Erhebung und Auswertung der anfallenden Daten sorgen soll. Auf Smart Planet habe ich eine gute Beschreibung der Fertigkeiten dieser “Datenjobs” gefunden: 1) Die Systemadministratoren, die sich mit Aufsetzen und Wartung der Hadoop-Cluster befassen und sicherstellen, dass der Datenfluss nicht gebremst wird. 2) Die Entwickler (oder “Map-Reducer”), die Anwendungen entwickeln, mit denen die Daten aus den Datenbanken abgerufen und verarbeitet werden. 3) Die eigentlichen Datenwissenschaftler oder Analysten, deren Aufgabe es ist, mit den Daten Geschichten zu erzählen und aus ihnen Produkte und Lösungen zu entwickeln. 4) Die Datenkuratoren, die für die Qualitätssicherung und Verknüpfung der Daten zuständig sind.

    Um einen besseren Eindruck davon zu gewinnen, wie sich die Big-Data-Community selbst sieht, habe ich die Twitter-Kurzbiographien der 200 wichtigsten Big-Data-Analysten, -Entwickler, -kaufleute einer Netzwerkanalyse unterzogen: Ich habe die Kurztexte in ein Netzwerk transformiert, in dem die Begriffe die Knoten darstellen und gemeinsame Erwähnungen in einer Twitter-Bio die Kanten. Das heißt, jedes mal, wenn jemand in seiner Bio “Hadoop Committer” stehen hat, gibt es in dem Netzwerk eine neue Kante zwischen “Hadoop” und “Committer”. Insgesamt besteht dieses Netzwerk aus knapp 800 Begriffen und 3200 Verbindungen zwischen den Begriffen. Das Netzwerk habe ich dann auf ca. 15% des Umfangs reduziert, indem ich mich auf die am häufigsten verwendeten Begriffe konzentriert habe (z.B. Big Data, Founder, Analytics, Cloudera, Apache, Committer, Hadoop, Computer). Das mit Gephi visualisierte Ergebnis ist oben zu sehen.



    Verwandte Artikel:
  • No related posts
  • Der Kontextvektor des Bundespräsidenten

    Vor Jahren hatte ich an dieser Stelle schon über die große Bedeutung der gespeicherten Google-Suchanfragen als “Datenbank der Wünsche” geschrieben. Die Begriffe, die Menschen in das Google-Eingabefeld schreiben, spiegeln sehr genau ihre Wünsche wider – sowohl die offen kommunizierten als auch die geheimen.

    Als Nebenbemerkung: Man könnte vermuten, dass Menschen mittlerweile ehrlicher zu ihrer Suchmaschine sind als zu ihren engsten Verwandten. Insofern sollte man intensiv über eine besondere Sorgfaltspflicht und einen besonderen Schutz dieser Daten nachdenken. Vielleicht gibt es bald neben der ärztlichen und der anwaltlichen Schweigepflicht auch so eine Art “Suchmaschinengeheimnis”, das garantiert, dass, was wir in einer Websuche über uns offenbaren, nicht in falsche Hände gerät.

    Neben dieser besonderen Vertrauensstellung dieser Datenbanken, beeindruckt vor allem das hier sekündlich anfallende Wissen. Dadurch, welche Begriffe gemeinsam eingegeben werden, und welche überhaupt nicht, oder dadurch, welche Treffer dann tatsächlich angeklickt werden, und welche überlesen werden, entsteht eine Wissensdatenbank, die vielleicht sogar größer als die Wikipedia ist, da sie sich viel schneller ändert. Die Assoziation von “Bundespräsident” und “Anrufbeantworter” dürfte zum Beispiel ein sehr junges Phänomen sein. Ja, wenn es um diese aktuellsten Phänomene geht, scheinen die Algorithmen von Google sogar die Rolle eines politischen Beraters einzunehmen, der dem amtierenden Staatsoberhaupt Handlungsempfehlungen gibt:

    Der Algorithmus schlägt den Rücktritt des Präsidenten vor

    Der Algorithmus schlägt den Rücktritt des Präsidenten vor

    Diese scheinbare Empfehlung entsteht schlicht daraus, dass diese beiden Begriffe in den letzten Tagen, Stunden besonders häufig gemeinsam in Suchabfragen verwendet wurden bzw. besonders häufig gemeinsam in Webseiten auftauchen. Diese überdurchschnittliche gemeinsamen Vorkommen (oder: Kollokationen) verwandeln die Suchmaschine aber gleichzeitig in eine neue Art von Wissensspeicher. Anhand der Struktur der sekündlich eingehenden Suchabfragen (bei Google waren es laut ComScore allein in den USA im November 13 Milliarden Abfragen) können Maschinen sehr viel darüber lernen, wie wir Menschen Begriffe und Wissen organisieren.

    Eine praktische Anwendung dieses Wissensspeichers habe ich in einem schon etwas älteren, aber einflussreichen Paper (Google Scholar zählt 246 Zitationen) der beiden Google-Mitarbeiter Mehran Sahami und Timothy D. Heilman “A Web­based Kernel Function for Measuring the Similarity
    of Short Text Snippets
    “. Darin geht es um das Problem, die inhaltliche Ähnlichkeit von sehr kurzen Textschnippseln zu erkennen. Da es sich hierbei nur um wenige Wörter handelt, versagen klassische Methoden des Textminings wie zum Beispiel das Kosinus-Ähnlichkeitsmaß. Die Anzahl der Datenpunkte ist schlicht zu klein, um Aussagen über die Ähnlichkeit zu treffen.

    Die Google-Wissenschaftler verwenden die Suchtreffer, die eine Suchmaschine wie Google auswirft, wenn man sie mit den Textschnippseln füttert, als Kontext-Vektor, mit dem sie dann die Übereinstimmung berechnen können, da er nun nicht mehr wenige Worte umfasst, sondern ein großer Corpus aus hunderten Dokumenten bzw. 1000-Zeichen langen Ausschnitten daraus darstellt. Das von ihnen beschriebene Verfahren stellt z.B. zwischen “Steve Ballmer” und “Microsoft CEO” eine Übereinstimmung von 0.838 fest, während das Kosinusmaß hier auf einen Wert von 0 gekommen wäre. Auch zwischen dem früheren CEO “Bill Gates” und “Microsoft CEO” gibt es eine Ähnlichkeit von immerhin 0.317 – aber auch seine korrekte Beziehung zu Microsoft findet dieses Maß heraus: “Bill Gates” und “Microsoft Founder” erzielt 0.677.

    Abb. aus Sahami/Heilman (2006), S. 4

    Abb. aus Sahami/Heilman (2006), S. 4

    Der erste Anwendungsfall dieses Verfahrens, der hier in den Sinn kommt, sind natürlich die automatischen Vorschläge bei Suchabfragen. Insofern ist das oben beschriebene Wulff-Beispiel also nicht unbedingt eine politische Handlungsempfehlung, sondern das Ergebnis des Vergleichs von Kontextvektoren.



    Verwandte Artikel:
  • Der Appstore als Netzwerk – Newsreader, Newsportale und digitale Zeitungen
  • Das Internet, die Gatekeeper und die Qualität

    Fragt man nach den Auswirkungen des Internets auf die Qualität, dann erhält man, je nachdem, wem man diese Frage stellt, unterschiedliche Antworten:

    In der ersten Variante hat das Internet zu einem unglaublichen Abfall der Qualität geführt. In diese Argumentation passt die Polemik gegen die Klowände genauso wie die etwas ruhiger verlaufende Debatte über das Kuratieren als neue Aufgabe der Redaktionen. Als Beispiel für den massiven Qualitätsverlust durch das Internet wird üblicherweise die Wikipedia zitiert, in der es sehr viele miserabel recherchierte, tendenziös geschriebene und immer wieder von Vandalismus heimgesuchte Artikel gibt.

    Früher sorgten in den Massenmedien Redakteure oder im Wissenschaftssystem langwierige Peer-Review-Prozesse dafür, dass am Ende nur geprüfte Qualität gedruckt bzw. publiziert wurde. Wenn diese Instanzen wegfallen – und im Internet kann man an ihnen vorbei publizieren – gibt es keinen Garant mehr für die Qualität der Veröffentlichungen. “Da kann ja jeder herkommen und etwas veröffentlichen!

    In der zweiten Variante ist durch das Internet ein bisher nicht dagewesener Anstieg der Qualität möglich geworden. Jeder kann im Web ein Blog eröffnen und über seine Erfahrungen in Beruf, Leben, Politik, Familie … publizieren. Wissenschaftler, die über Randgebiete von Orchideenfächer forschen, erreichen im Internet mit ihren Forschungsergebnissen genau diejenigen fünf über die Welt verteilten Kolleginnen, die sich für genau dieselben Phänomene interessieren. Jeder kann schreiben, filmen, fotografieren, komponieren … und seine Werke dann auf Plattformen wie Tumblr, Instagram, Vimeo oder Soundcloud hochladen und der Öffentlichkeit zugänglich machen. Als Beispiel für die unglaubliche Qualitätssteigerung durch das Internet wird üblicherweise die Wikipedia zitiert, in der es sehr viele umfassend recherchierte, objektiv geschriebene und immer wieder verbessert, ergänzt und kommentierte Artikel gibt.

    Zu den Aufgaben der Redakteure und Peer-Reviewer gehörte nicht nur die Qualitätssicherung nach unten, sondern auch nach oben. Die wirklich brillanten Forscher und Künstler hatten zu Lebzeiten große Schwierigkeiten, in das offizielle gesellschaftliche Publikationssystem zu gelangen, da ihre Gedanken und Werke damals von den Gatekeepern nicht verstanden oder gefürchtet wurden. Qualitätssicherung heißt immer auch Bewahrung, Innovationsfeindlichkeit und dadurch letztlich Förderung des Mittelmaßes.

    Das kommt auch schon daher, dass die Gatekeeper die Aufgabe haben, auf den Bedarf und die Möglichkeiten eines bestimmten Publikums zu achten – eines Publikums mit bestimmten Voraussetzungen und Beschränkungen. Im Fall der Redakteure ist dies häufig eine “allgemein-gebildete Öffentlichkeit”, im Fall der Wissenschaftler die “scientific community”. Um die Arbeit der Gatekeeper zu erleichtern, nimmt man bei beiden Öffentlichkeiten zum Beispiel einen bestimmten Bildungsgrad an. Die französische Revolution kann hier als bekannt vorausgesetzt werden, während die Oberbayerische Postbauschule erklärt werden muss. Ganz ähnlich funktioniert das in der Wissenschaft, da hier zwar viel mehr Fachwissen vorhanden ist, aber jeder Wissenschaftler in fast allen Disziplinen und Subdisziplinen außer der eigenen ein Laie ist.

    Im Internet ist niemand dafür zuständig, für Rücksicht auf die Bedürfnisse und Voraussetzungen der unterschiedlichen Öffentlichkeiten zu sorgen. Jeder kann (und dies geschieht natürlich auch) so schreiben, dass es nur eine einzige Person – nämlich sie oder er selbst – verstehen kann. Aber noch häufiger richtet sich der Autor an eine mehr oder weniger esoterische Deutungs- oder Erlebnis-Gemeinschaft. Das Schreiben ins Internet zerstört die klaren Vorstellungen von Massen- und Durchschnittsöffentlichkeiten und ähnelt damit eher den hoch-metaphorischen hermetischen Texten der Alchemisten als den Fernsehnachrichten um 20 Uhr.

    Insofern ist die Frage nach der Qualität eine überflüssige oder falsch gestellte Frage: Das Internet hat die Qualität stark vermindert, und das Internet hat die Qualität stark gesteigert. Aber vor allem ist es dabei, unsere Vorstellungen einer einheitlichen Zuschauer-, Hörer- und Leserschaft aufzulösen. Mit allen positiven und negativen Folgen.



    Verwandte Artikel:
  • Online wie Offline. Zimmermann über Online-Öffentlichkeiten
  • Der Aufstieg der Datenwissenschaftler
  • Katzenbilder sind der Kitt der Gesellschaft – oder: Die drei Arten von Information im Internetzeitalter
  • Kontrollverlierer

    In formalen Organisationen passiert so etwas regelmäßig. Jemand legt sich mit den Strukturen und Prozessen der Organisation an und bekommt dafür die Rechnung. Dazu muss man keine Funktionen und Folgen formaler Organisationen gelesen zu haben, um vorhersehen zu können, dass ein Blogger, der seit kurzem bei einer großen Tageszeitung als CTRL-Verlustblogger engagiert wurde, im Ernstfall eines Streits mit der Organisation keine allzu guten Karten besitzt. Das hat dann auch nichts mit unterschiedlichen Publikationskulturen oder Dezentralität versus Zentralismus zu tun, sondern schlicht damit, wie kreativ man die Regeln, unter den man eingestellt wurde, auslegen kann, bevor es knallt.

    Einigermaßen bemerkenswert ist allerdings doch, wie dieses Ereignis nun in anderen Blogs als “eklatanter Widerspruch zur Pressefreiheit” oder besonders daneben als “Bücherverbrennung” deklariert wird. Mit Pressefreiheit hat das nämlich überhaupt nichts zu tun. Pressefreiheit beschreibt nicht das Recht eines Bloggers, für seine Blogposts und nicht einmal selbstgeschossenen Fotos, eine reichweitenstarke Präsenz wie die FAZ als Bühne verwenden zu können. Pressefreiheit ist kein Recht darauf, gehört zu werden, sondern ein Abwehrrecht dagegen, zum Schweigen gebracht zu werden.

    Ist es nicht eine herrliche Ironie, dass der Gründungsherausgeber der FAZ, Paul Sethe, 1965 folgende bitterbösen Sätze geschrieben hat, die heute in keiner Journalistikvorlesung fehlen:

    Pressefreiheit ist die Freiheit von 200 reichen Leuten, ihre Meinung zu verbreiten… Da die Herstellung von Zeitungen und Zeitschriften immer größeres Kapital erfordert, wird der Kreis der Personen, die Presseorgane herausgeben, immer kleiner. Damit wird unsere Abhängigkeit immer größer und immer gefährlicher.

    Der Witz an der Sache ist, dass genau dieser Zusammenhang 45 Jahre später nicht mehr zwangsläufig ist. Das Herstellen von Zeitungen und Zeitschriften mag immer noch einen zu großen Kapitalaufwand bedeuten, um das als Individuum stemmen zu können. Aber das Verbreiten der eigenen Meinung ist nicht mehr nur eine Frage des ökonomischen Kapitals. Jeder kann sich mit Hilfe von freien und kostenlosen Programmen wie der WordPress-Blogsoftware eine eigene Publikationsplattform schaffen und seine Meinung publizieren – “aus einer gemütlichen Stube heraus“. Das ist dann freilich noch keine Garantie dafür, dass die eigene Meinung dann auch gelesen wird, aber genau das ist auch Pressefreiheit. Im Web haben ein großer Verlag und ein einzelner Blogger wenigstens prinzipiell die gleichen Startbedingungen, ein gutes, lesenswertes Medium zu schaffen und dafür dann auch ein Publikum zu finden.

    Genau an diesem Punkt wird es dann aber höchst politisch, denn dazu gehört z.B. auch, dass die Inhalte nicht aufgrund ökonomischer Erwägungen aus den wichtigen Distributions- und Informationskanälen wie Suchmaschinen, Videoplattformen, Wikis etc. herausgelöscht werden wie z.B. im Fall des Wikileaks-Videos “Collateral Damage” von Youtube geschehen. Dazu meine Slow-Media-Kollege Jörg Blumtritt, der einen “Virtuellen Rundfunk” fordert:

    Eine Website, die auf Google nicht gelistet wird, existiert de facto nicht; ein Buch, dass Amazon nicht anbietet, kann man gleich wieder einstampfen; Musik, die i-tunes nicht listet, wird kaum gehört werden. Es ist höchste Zeit, dass wir – als Gesellschaft– aktiv werden, Initiative ergreifen, die Stimme erheben. Und zwar nicht, indem wir versuchen, über Regelungen und Gesetze alles in den alten Bahnen festzuzementierten (das wird ohnehin nichts bewirken). Nein, es ist vielmehr wichtig, eine aktive Rolle einzunehmen und nicht nur zu reagieren.

    Das Problem ist nicht der Kontrollverlust eines Bloggers gegenüber einem Unternehmen, mit dem er ein für ihn wie auch immer missverständliches Vertragsverhältnis eingegangen ist, sondern der drohende Kontrollverlust gegenüber einer immer mächtigeren Informationsinfrastruktur, deren wesentliche Bausteine nicht in öffentlicher, sondern privater Hand sind. Da hat der alte Sethe dann doch noch seine Relevanz.

    Ergänzung: Die Blogosphäre wäre eine viel interessantere Welt, wenn alle Blogger ihre Fotos selbst machen würden.



    Verwandte Artikel:
  • No related posts