Archive for the 'Gephi' Category

Netzwerkanalyse von Hashtaglagern

Twitter-Netzwerkanalysen aus den USA kommen regelmäßig zu dem Ergebnis einer unglaublichen Polarisierung zwischen den Lagern. Demokraten folgen Demokraten. Republikaner folgen Republikanern. Kommunikation zwischen den beiden ist auf das ironische Verwenden der “gegnerischen” Hashtags reduziert.

Ich gehe schon länger der Frage nach, ob sich diese Beobachtungen auch in der digitalen politischen Kommunikation nachvollziehen lässt. Sehr schnell spricht man ja von “politischen Filterblasen”, die dazu führen, dass man nur Botschaften mitbekommt, die zu der eigenen politischen Einstellung passen.

Heute war ein guter Tag für die politische Twitter-Kommunikation. Drei politische Ereignisse liefen gleichzeitig ab, die jeweils ziemlich eindeutige Hashtags hatten:

  • der Netzpolitische Kongress der Grünen in Berlin (Hashtag: #nk12)
  • der Parteitag der CSU in München (Hashtag: #csupt12)
  • der deutschlandweite (bzw. europaweite) Aktionstag gegen das EU-Überwachungsprojekt INDECT (Hashtag: #indect)

Zu diesen drei Hashtags wurden alle relevanten Tweets des 20. Oktober erfasst und ausgewertet. Die folgende Visualisierung zeigt die Twitter-Accounts, die zu einen der drei Hashtags verwendet haben sowie die Follower-Beziehungen zwischen ihnen. Die Einfärbung erfolgt nach den Löwener Modularitätsalgorithmus von Blondel et al. Der Algorithmus analysiert und identifiziert Sub-Communities in großen sozialen Netzwerken.

Follower network for #nk12 #csupt12 and #indect

Zwar lassen sich deutliche Cluster zu den untersuchten Hashtags identifizieren, aber trotzdem sind die Twitterer, die sich zu den drei Themen äußern, durch ihre Follower-Netzwerke sehr eng mit auch mit den Personen aus den anderen “Hashtag-Lagern” verbunden. Interessanterweise scheinen viele dieser “lagerübergreifenden” Kontakte über regionale Netzwerke zu lassen: Zum einen hat die piratisch orientierte Anti-Indect-Szene gerade in Berlin viele Verbindungen zu Grünen Netzpolitikern. Zum anderen sind einige bayerischen Politiker der Grünen sehr gut mit ihren Kollegen der CSU verbunden.



Verwandte Artikel:
  • Spickzettel Netzwerkanalyse (SNA)?
  • Netzwerkanalyse der metaroll
  • Der Aufstieg der Datenwissenschaftler
  • Networking auf dem DLD

    Nebenan bei im hübschen Datenblog habe ich mir einmal die Twitter-Diskussionen zur diesjährigen DLD-Konferenz vom Kongressvorabend bis zum heutigen Montag angesehen. Man sieht sehr schön, wie sich die Aufmerksamkeit von Tag zu Tag im Netzwerk verschiebt. Ich bin gespannt, wie sich das zum letzten Tag noch einmal ändert. Außerdem werde ich abschließend auch noch einmal die Twitternachrichten selbst betrachten, um Muster herauszufinden. Das zum Beispiel war der Montag:

    Hier geht’s zum Artikel.



    Verwandte Artikel:
  • Typen digitaler sozialer Netzwerke (Robert Peck)
  • Let’s Mash (Yahoo!)
  • Fugly is the new beautiful (Yahoo! Mash)
  • Der Appstore als Netzwerk – Newsreader, Newsportale und digitale Zeitungen

    Why then the world’s mine network
    Which I with software will open.

    Der Vorteil einer abstrakten Methode wie der Social Network Analysis ist es, dass sich fast alle Daten, die irgendwie zusammenhängen, als Netzwerk betrachten und analysieren lassen. Das Paradebeispiel sind natürlich die Empfehlungsalgorithmen, die Nutzern von Google, Youtube oder Amazon erzählen, was sie sonst noch interessieren könnte. Überall dort, wo es empfohlene Produkte oder Produkte, die andere Kunden auch gekauft haben, gibt, kann man sehr einfach mit den Methoden der Netzwerkanalyse angreifen. Auf diese Weise wird aus den isolierten Paaren oder Mengen verwandter Produkte eine große Verwandtschaftskarte, auf der nicht nur Beziehungen, sondern auch Muster und Schwerpunkte erkennbar sind.

    Ich habe mir einmal den iTunes-Appstore vorgenommen. Auf jeder (bzw. fast jeder) Downloadseite einer App sind weitere fünf Apps verzeichnet, die überdurchschnittlich häufig gemeinsam mit dieser App heruntergeladen oder gekauft werden. Das Netzwerk springt einem hier förmlich entgegen. Wenn man die 240 beliebtesten Apps der Kategorie Nachrichten auf diese Beziehungen hin erfasst, erhält man folgendes Netzwerk der Nachrichten-Applandschaft (Klick zum Vergrößern):

    Social network visualization of app downloads

    Die Größe der Knoten steht für die Anzahl der Bewertungen der Apps – solange es keinen Zugriff auf die Downloadzahlen der Apps gibt, könnte das eine Annäherung an die Bedeutung oder Verbreitung einer App sein. Die Farbe zeigt die unterschiedlichen Cluster von Apps, die besonders eng miteinander verbunden sind: Links in Hellblau und rechts in Dunkelblau sind zwei Cluster von Nachrichtenapps. Rechts findet man die Zeitungsapps von FAZ, Bild, Süddeutsche, Abendzeitung, Weserkurier etc., während links eher die iPad-Varianten von Onlineportalen wie Spiegel, Focus Online, Süddeutsche.de zu finden sind. Oben in Violett ist ein kleines Cluster von redaktionsunabhängigen Newsaggregatoren wie Pulse, Flipboard oder Reeder. Ganz rechts liegt Österreich, während im Süden die Türkei zu finden ist. Dazwischen ein Applecluster mit Apfeltech und Macwelt. Ganz im Norden ist das Review-stärkste Cluster von Nachrichtenaggregatoren und App-Nachrichten-Apps, das von MeinProspekt dominiert wird.

    Die Apps mit den meisten Reviews in dieser Karte sind:

    1. Mein Prospekt XL – 39.382 Reviews
    2. n-tv iPhone edition – 16.140 Reviews
    3. DER SPIEGEL eReader – 12.759 Reviews
    4. FOCUS Online – 10.300 Reviews
    5. DIE WELT – 9.312 Reviews
    6. Flipboard – 6.394 Reviews
    7. BILD HD – 5.722 Reviews
    8. Tagesschau – 5.705 Reviews
    9. NYTimes – 5.533 Reviews
    10. AppTicker Push – 5.524 Reviews

    In dieser Aufzählung fehlt die normale Version von BILD mit 24.146 Reviews, die ein isolierter Knoten ist, da für diese App keine verwandten Apps angegeben sind und auch keine der anderen Apps auf sie verweist – eine echte Anomalie, die ich mir im Moment nicht erklären kann.

    Interessant ist auch der Blick auf die Anzahl der eingehenden Links, d.h. welche Apps besonders häufig als verwandte Apps genannt werden. Der Durchschnitt liegt bei 2,3.  Hier sieht die Liste ganz anders aus:

    1. The Wall Street Journal – 51 Nennungen
    2. AppAdvice – 45 Nennungen
    3. Blastr – 40 Nennungen
    4. NPR for iPad – 39 Nennungen
    5. Flo’s Weblog – 27 Nennungen
    6. eGazety Reader – 27 Nennungen
    7. ??-??? ????? a – 25 Nennungen
    8. SAPO News – 23 Nennungen
    9. DVICE – 20 Nennungen
    10. DER SPIEGEL – 18 Nennungen

    Dieselben Apps erhält man bei der Berechnung des PageRank, d.h. der Wahrscheinlichkeit, beim Abwandern des Netzwerks zufällig auf die verschiedenen Apps zu stoßen. Die Anzahl der Verbindungen zwischen den Apps, also der Vernetzungsgrad ist relativ niedrig, da für jede App nur jeweils 5 verwandte Produkte angezeigt werden – insgesamt sind die 451 Knoten durch 1.055 Kanten verbunden.



    Verwandte Artikel:
  • Kein Besucher bleibt ewig! Zeitungen sollen sich nicht neu erfinden, sondern das Verlinken lernen
  • Zeitungen springen auf den Web 2.0-Zug auf
  • Immer mehr Deutsche lesen Nachrichten im Netz – was macht der Rest im Internet?
  • Der Aufstieg der Datenwissenschaftler

    Eines der wichtigsten Buzzwords im Marktforschungs- und Wissenschaftsjahr 2012 ist mit Sicherheit “Big Data”. Sogar die Zukunft eines Intenretriesen wie Yahoo! wird auf diese Frage zugespitzt: Wie hältst du es mit den großen Daten (dazu auch lesenswert das AdAge-Interview mit dem neuen CEO Scott Thompson)?

    Auf den ersten Blick ist das Phänomen, das sich dahinter verbirgt, nichts neues: es gibt riesige Mengen an Daten, die darauf warten, analysiert und interpretiert zu werden. Diese Datenberge gab es früher auch schon – man denke nur an die gewaltigen Kundentransaktionsdaten, die klassischen Webzugriffslogs oder die Himmelsdaten aus den Observatorien.

    bigdata_network

    Besonders spannend sind folgende Entwicklungen und Dimensionen des Big-Data-Phänomens:

    Demokratisierung der Technik: Zum einen sind die Werkzeuge, um Datensätze in Terabytegröße zu analysieren, mittlerweile demokratisiert. Jeder, der ein paar alte Rechner im Keller stehen hat, kann daraus ein leistungsfähiges Hadoop-Cluster aufbauen und damit in die Analyse großer Daten einsteigen. Die Software, die man für Datenerfassung, Speicherung, Analyse und Visualisierung benötigt, ist größtenteils frei verfügbare Open-Source-Software. Wer zu Hause keine Rechner herumstehen hat, kann sich die Rechenzeit bei Amazon kaufen.

    Ein neues Ökosystem: Mittlerweile hat sich hier eine lebendige Bastlerszene der Big-Data-Hacker entwickelt, die an den verschiedenen Big-Data-Technologien arbeitet und in Präsentationen und Aufsätzen die unterschiedlichen Anwendungsszenarien demonstrieren. Wenn man sich die Biographien der Big-Data-Community ansieht, fällt aber auch, dass man es sehr viel weniger mit Forschergruppen an Universitäten zu tun hat, sondern um Wissenschaftler (“data scientists”), die in den großen Internetunternehmen wie Google, Yahoo, Twitter oder Facebook arbeiten. Das ist zum Beispiel bei der Python-Entwicklergemeinde oder der R-Statistikercommunity anders. Im Augenblick sieht es sogar so aus, als verliefe der typische Karrierepfad an der US-Westküste weg von den Internetgiganten und hin zu neuen Big-Data-Startups.

    Visualisierung von Netzwerken: Die visuelle Darstellung der Daten ist mittlerweile fast wichtiger geworden als klassische statistische Methoden, die nach Kausalitäten suchen. In diesem Zusammenhang hat auch die Netzwerkanalyse wieder stark an Bedeutung gewonnen. Fast alle soziale Phänomene und großen Datensätze von Venture Capitalists bis Katzenbildern können als Netzwerke visualisiert und exploriert werden. Auch hier spielen Open-Source-Software und offene Datenschnittstellen eine große Rolle. Programme wie die Netzwerkvisualisierungssoftware Gephi können sich in naher Zukunft direkt mit den Schnittstellen (APIs) der Plattformen Facebook, Twitter, Wikipedia oder Google verbinden und die abgerufenen Daten gleich weiterverarbeiten.

    Neue Fähigkeiten und Stellenbeschreibungen: Eines der heißesten Buzzwords in der Big-Data-Szene ist der “Data Scientist”, der jetzt in klassischen Unternehmen genauso wie in Internetunternehmen für die Erhebung und Auswertung der anfallenden Daten sorgen soll. Auf Smart Planet habe ich eine gute Beschreibung der Fertigkeiten dieser “Datenjobs” gefunden: 1) Die Systemadministratoren, die sich mit Aufsetzen und Wartung der Hadoop-Cluster befassen und sicherstellen, dass der Datenfluss nicht gebremst wird. 2) Die Entwickler (oder “Map-Reducer”), die Anwendungen entwickeln, mit denen die Daten aus den Datenbanken abgerufen und verarbeitet werden. 3) Die eigentlichen Datenwissenschaftler oder Analysten, deren Aufgabe es ist, mit den Daten Geschichten zu erzählen und aus ihnen Produkte und Lösungen zu entwickeln. 4) Die Datenkuratoren, die für die Qualitätssicherung und Verknüpfung der Daten zuständig sind.

    Um einen besseren Eindruck davon zu gewinnen, wie sich die Big-Data-Community selbst sieht, habe ich die Twitter-Kurzbiographien der 200 wichtigsten Big-Data-Analysten, -Entwickler, -kaufleute einer Netzwerkanalyse unterzogen: Ich habe die Kurztexte in ein Netzwerk transformiert, in dem die Begriffe die Knoten darstellen und gemeinsame Erwähnungen in einer Twitter-Bio die Kanten. Das heißt, jedes mal, wenn jemand in seiner Bio “Hadoop Committer” stehen hat, gibt es in dem Netzwerk eine neue Kante zwischen “Hadoop” und “Committer”. Insgesamt besteht dieses Netzwerk aus knapp 800 Begriffen und 3200 Verbindungen zwischen den Begriffen. Das Netzwerk habe ich dann auf ca. 15% des Umfangs reduziert, indem ich mich auf die am häufigsten verwendeten Begriffe konzentriert habe (z.B. Big Data, Founder, Analytics, Cloudera, Apache, Committer, Hadoop, Computer). Das mit Gephi visualisierte Ergebnis ist oben zu sehen.



    Verwandte Artikel:
  • No related posts