Daily Archive for Dezember 18th, 2011

Big Data und die Hackertugenden


Big Data am Beispiel Foursquare

Wenn ich nach den wichtigsten Trends gefragt werde, die in den nächsten Jahren ganz oben auf der Agenda der Markt- und Sozialforschung stehen werde, ist “Big Data” eine meiner Standardantworten. Der Begriff ist schon etwas älter: Bereits 2001 hat der Gartner-Analyst Doug Laney in einem Forschungsmemorandum drei Dimensionen von Big Data skizziert:

  • Umfang (Volume): Big Data heißt, dass besonders viele Daten anfallen. Beispiele sind der Twitter-Stream oder die Verlinkung von Blogposts. Hier sprechen wir nicht mehr von Tausenden oder Hunderttausenden Datensätzen, die man mit den üblichen Analysetools noch bewältigen kann, sondern von Millionen oder Milliarden von Datensätzen. Hier kommt man mit SPSS oder Excel nicht mehr weiter, sondern hier sind neue Ansätze gefordert, wie sie zum Beispiel bei Hadoop und Tableau zu sehen sind (oder in kommerziellen Anwendungen wie Karmasphere oder Datameer, die auf dem Hadoop-Framework aufsetzen)
  • Geschwindigkeit (Velocity): Diese Daten, das ist die zweite “große” Dimension, fallen häufig in Echtzeit bzw. sehr schnell an. Das übliche Forschungsdesign mit den sauberen Schritten: Datenerhebung -> Datenbereinigung -> Datenauswertung funktioniert hier nicht mehr. Auch für die Echtzeitverarbeitung von Streams gibt es mit S4 oder Storm schon die ersten Open-Source-Anwendungen. Ganz abgesehen davon, dass sich die Spezifikationen und Algorithmen der Plattformen nahezu im Monatsrhythmus ändern.
  • Unordnung (Variety / Variability): Dazu kommt, dass die Daten auch nicht mehr so sauber mit Metadaten versehen sind wie in der klassischen Sozialforschung. Die Datensätze, die man über die Schnittstellen der Social Networks bekommt, besitzen alle unterschiedliche Quellen und sind von den Networks auf unterschiedliche Weise hergestellt worden. Große Datensätze sind in der Regel auch schmutzige Datensätze.

Niemand weiß genau, wie viele Daten wir tatsächlich jeden Tag produzieren. Eine Schätzung von IBM geht von 2,5 Trillionen Bytes Datenvolumen am Tag aus. Eine Faustregel lautet: Wenn man nachschlagen muss, wie viele Nullen hinter einem Zahlennamen steckt, dann hat man es mit Big-Data-Dimensionen zu tun (in diesem Fall: 2.500.000.000.000.000.000). Die Datenmengen, mit denen sich die Onlineforschung heute herumschlägt, sind Größenordnungen, für die man in der Schule nicht einmal die entsprechenden Zahlennamen gelernt hatte. Weil man sie damals nur theoretisch gebraucht hätte.

Was an dieser Entwicklung so verrückt ist: Zunächst würde man meinen, je mehr Daten es werden, desto schwieriger und komplexer auch die Erhebung und der Umgang mit diesen Daten. Weit gefehlt! Heute kann ein Student mit Hilfe von Amazon-Cloudcomputing die APIs von Social Networks wie Facebook, Twitter, Foursquare etc. anzapfen, und binnen weniger Tage liegen in seiner Datenbank mehr Sozial- und Verhaltensdaten als die gesamte Markt- und Sozialforschung während der 50er und 60er Jahren erhoben hat. Man könnte vermuten: Je größer die Dimensionen der Big Data werden, desto niedriger die Zugangshürden. Auch die Bereinigungs- und Analysetools stehen häufig als Open-Source-Software zur Verfügung.

Was sich allerdings ändert, sind die Qualifikationen. Das, was der Petabyte-Forscher (oder “Extreme Information Manager“) können muss, ähnelt eher den Kompetenzen eines Bastlers und Hackers. Die drei Kardinaltugenden eines Hackers hat Larry Wall, der Erfinder der Programmiersprache Perl, vor mehr als 20 Jahren wie folgt definiert: Faulheit, Ungeduld und Hybris. Diese drei Tugenden passen wie perfekt auf die drei Herausforderungen von Big Data:

  • Faulheit (Laziness) ist notwendig, um mit minimalen Änderungen an den Schnittstellen und Algorithmen auch auf verändernde Datenstrukturen reagieren zu können und die “schmutzigen” Daten aus unterschiedlichen Quellen miteinander zu verbinden.
  • Ungeduld (Impatience) ist die einzige Reaktionsmöglichkeit auf das Echtzeitproblem zu reagieren. Der Sozialforschungshacker muss noch ungeduldiger sein als die Geschwindigkeit, in der die Daten produziert und geliefert werden.
  • Hybris (Hybris) schließlich ergibt sich wie von selbst aus dem Ziel, in Trillionen von Daten verwertbare und aussagekräftige Muster zu finden. Ohne ein Mindestmaß an Selbstüberschätzung hätte ich mich zum Beispiel niemals hingesetzt, um ein Programm zu schreiben, das die Vernetzung von Millionen Twitterusern analysiert oder mich niemals daran gemacht, die gesamte deutschsprachige Blogosphäre zu vermessen und ihre Vernetzungsstruktur aufzuzeichnen.

Aber nicht nur auf der Ebene der Qualifikationen und Kompetenzen hat Big Data eine disruptive Wirkung, sondern die ersten Veränderungen lassen sich auch schon bei den Geschäftsmodellen beobachten. Es entstehen immer mehr Big-Data-Marktplätze, auf denen man Datensätze und -ansichten kaufen kann. Beispiele sind Windows Azure oder Gnip. Innerhalb der Unternehmen – das sieht Edd Dumbill als einen wichtigen Trend in diesem Bereich – werden “Datascience”-Teams eingerichtet, deren Aufgabe es ist, die Ergebnisse der Extreme Data Analysis in die Unternehmensabläufe zu integrieren.

Einen weiteren Punkt würde ich noch ergänzen: Da wir es sehr bei Big Data häufig mit vernetzten Daten zu tun haben, wird die Netzwerkanalyse (Social Network Analysis) zur neuen Leitwissenschaft der Markt- und Sozialforschung. Kaum eine andere Methode ist so gut geeignet, in sehr großen Datensätzen Muster zu identifizieren und zu visualisieren.



Verwandte Artikel:
  • Der Aufstieg der Datenwissenschaftler
  • Datenvisualisierung
  • Digitale Stadtentwicklung oder Warum Code for America die Zukunft des digitalen Ehrenamts ist