Archive for the 'hadoop' Category

Der Aufstieg der Datenwissenschaftler

Eines der wichtigsten Buzzwords im Marktforschungs- und Wissenschaftsjahr 2012 ist mit Sicherheit “Big Data”. Sogar die Zukunft eines Intenretriesen wie Yahoo! wird auf diese Frage zugespitzt: Wie hältst du es mit den großen Daten (dazu auch lesenswert das AdAge-Interview mit dem neuen CEO Scott Thompson)?

Auf den ersten Blick ist das Phänomen, das sich dahinter verbirgt, nichts neues: es gibt riesige Mengen an Daten, die darauf warten, analysiert und interpretiert zu werden. Diese Datenberge gab es früher auch schon – man denke nur an die gewaltigen Kundentransaktionsdaten, die klassischen Webzugriffslogs oder die Himmelsdaten aus den Observatorien.

bigdata_network

Besonders spannend sind folgende Entwicklungen und Dimensionen des Big-Data-Phänomens:

Demokratisierung der Technik: Zum einen sind die Werkzeuge, um Datensätze in Terabytegröße zu analysieren, mittlerweile demokratisiert. Jeder, der ein paar alte Rechner im Keller stehen hat, kann daraus ein leistungsfähiges Hadoop-Cluster aufbauen und damit in die Analyse großer Daten einsteigen. Die Software, die man für Datenerfassung, Speicherung, Analyse und Visualisierung benötigt, ist größtenteils frei verfügbare Open-Source-Software. Wer zu Hause keine Rechner herumstehen hat, kann sich die Rechenzeit bei Amazon kaufen.

Ein neues Ökosystem: Mittlerweile hat sich hier eine lebendige Bastlerszene der Big-Data-Hacker entwickelt, die an den verschiedenen Big-Data-Technologien arbeitet und in Präsentationen und Aufsätzen die unterschiedlichen Anwendungsszenarien demonstrieren. Wenn man sich die Biographien der Big-Data-Community ansieht, fällt aber auch, dass man es sehr viel weniger mit Forschergruppen an Universitäten zu tun hat, sondern um Wissenschaftler (“data scientists”), die in den großen Internetunternehmen wie Google, Yahoo, Twitter oder Facebook arbeiten. Das ist zum Beispiel bei der Python-Entwicklergemeinde oder der R-Statistikercommunity anders. Im Augenblick sieht es sogar so aus, als verliefe der typische Karrierepfad an der US-Westküste weg von den Internetgiganten und hin zu neuen Big-Data-Startups.

Visualisierung von Netzwerken: Die visuelle Darstellung der Daten ist mittlerweile fast wichtiger geworden als klassische statistische Methoden, die nach Kausalitäten suchen. In diesem Zusammenhang hat auch die Netzwerkanalyse wieder stark an Bedeutung gewonnen. Fast alle soziale Phänomene und großen Datensätze von Venture Capitalists bis Katzenbildern können als Netzwerke visualisiert und exploriert werden. Auch hier spielen Open-Source-Software und offene Datenschnittstellen eine große Rolle. Programme wie die Netzwerkvisualisierungssoftware Gephi können sich in naher Zukunft direkt mit den Schnittstellen (APIs) der Plattformen Facebook, Twitter, Wikipedia oder Google verbinden und die abgerufenen Daten gleich weiterverarbeiten.

Neue Fähigkeiten und Stellenbeschreibungen: Eines der heißesten Buzzwords in der Big-Data-Szene ist der “Data Scientist”, der jetzt in klassischen Unternehmen genauso wie in Internetunternehmen für die Erhebung und Auswertung der anfallenden Daten sorgen soll. Auf Smart Planet habe ich eine gute Beschreibung der Fertigkeiten dieser “Datenjobs” gefunden: 1) Die Systemadministratoren, die sich mit Aufsetzen und Wartung der Hadoop-Cluster befassen und sicherstellen, dass der Datenfluss nicht gebremst wird. 2) Die Entwickler (oder “Map-Reducer”), die Anwendungen entwickeln, mit denen die Daten aus den Datenbanken abgerufen und verarbeitet werden. 3) Die eigentlichen Datenwissenschaftler oder Analysten, deren Aufgabe es ist, mit den Daten Geschichten zu erzählen und aus ihnen Produkte und Lösungen zu entwickeln. 4) Die Datenkuratoren, die für die Qualitätssicherung und Verknüpfung der Daten zuständig sind.

Um einen besseren Eindruck davon zu gewinnen, wie sich die Big-Data-Community selbst sieht, habe ich die Twitter-Kurzbiographien der 200 wichtigsten Big-Data-Analysten, -Entwickler, -kaufleute einer Netzwerkanalyse unterzogen: Ich habe die Kurztexte in ein Netzwerk transformiert, in dem die Begriffe die Knoten darstellen und gemeinsame Erwähnungen in einer Twitter-Bio die Kanten. Das heißt, jedes mal, wenn jemand in seiner Bio “Hadoop Committer” stehen hat, gibt es in dem Netzwerk eine neue Kante zwischen “Hadoop” und “Committer”. Insgesamt besteht dieses Netzwerk aus knapp 800 Begriffen und 3200 Verbindungen zwischen den Begriffen. Das Netzwerk habe ich dann auf ca. 15% des Umfangs reduziert, indem ich mich auf die am häufigsten verwendeten Begriffe konzentriert habe (z.B. Big Data, Founder, Analytics, Cloudera, Apache, Committer, Hadoop, Computer). Das mit Gephi visualisierte Ergebnis ist oben zu sehen.



Verwandte Artikel:
  • No related posts
  • Big Data und die Hackertugenden


    Big Data am Beispiel Foursquare

    Wenn ich nach den wichtigsten Trends gefragt werde, die in den nächsten Jahren ganz oben auf der Agenda der Markt- und Sozialforschung stehen werde, ist “Big Data” eine meiner Standardantworten. Der Begriff ist schon etwas älter: Bereits 2001 hat der Gartner-Analyst Doug Laney in einem Forschungsmemorandum drei Dimensionen von Big Data skizziert:

    • Umfang (Volume): Big Data heißt, dass besonders viele Daten anfallen. Beispiele sind der Twitter-Stream oder die Verlinkung von Blogposts. Hier sprechen wir nicht mehr von Tausenden oder Hunderttausenden Datensätzen, die man mit den üblichen Analysetools noch bewältigen kann, sondern von Millionen oder Milliarden von Datensätzen. Hier kommt man mit SPSS oder Excel nicht mehr weiter, sondern hier sind neue Ansätze gefordert, wie sie zum Beispiel bei Hadoop und Tableau zu sehen sind (oder in kommerziellen Anwendungen wie Karmasphere oder Datameer, die auf dem Hadoop-Framework aufsetzen)
    • Geschwindigkeit (Velocity): Diese Daten, das ist die zweite “große” Dimension, fallen häufig in Echtzeit bzw. sehr schnell an. Das übliche Forschungsdesign mit den sauberen Schritten: Datenerhebung -> Datenbereinigung -> Datenauswertung funktioniert hier nicht mehr. Auch für die Echtzeitverarbeitung von Streams gibt es mit S4 oder Storm schon die ersten Open-Source-Anwendungen. Ganz abgesehen davon, dass sich die Spezifikationen und Algorithmen der Plattformen nahezu im Monatsrhythmus ändern.
    • Unordnung (Variety / Variability): Dazu kommt, dass die Daten auch nicht mehr so sauber mit Metadaten versehen sind wie in der klassischen Sozialforschung. Die Datensätze, die man über die Schnittstellen der Social Networks bekommt, besitzen alle unterschiedliche Quellen und sind von den Networks auf unterschiedliche Weise hergestellt worden. Große Datensätze sind in der Regel auch schmutzige Datensätze.

    Niemand weiß genau, wie viele Daten wir tatsächlich jeden Tag produzieren. Eine Schätzung von IBM geht von 2,5 Trillionen Bytes Datenvolumen am Tag aus. Eine Faustregel lautet: Wenn man nachschlagen muss, wie viele Nullen hinter einem Zahlennamen steckt, dann hat man es mit Big-Data-Dimensionen zu tun (in diesem Fall: 2.500.000.000.000.000.000). Die Datenmengen, mit denen sich die Onlineforschung heute herumschlägt, sind Größenordnungen, für die man in der Schule nicht einmal die entsprechenden Zahlennamen gelernt hatte. Weil man sie damals nur theoretisch gebraucht hätte.

    Was an dieser Entwicklung so verrückt ist: Zunächst würde man meinen, je mehr Daten es werden, desto schwieriger und komplexer auch die Erhebung und der Umgang mit diesen Daten. Weit gefehlt! Heute kann ein Student mit Hilfe von Amazon-Cloudcomputing die APIs von Social Networks wie Facebook, Twitter, Foursquare etc. anzapfen, und binnen weniger Tage liegen in seiner Datenbank mehr Sozial- und Verhaltensdaten als die gesamte Markt- und Sozialforschung während der 50er und 60er Jahren erhoben hat. Man könnte vermuten: Je größer die Dimensionen der Big Data werden, desto niedriger die Zugangshürden. Auch die Bereinigungs- und Analysetools stehen häufig als Open-Source-Software zur Verfügung.

    Was sich allerdings ändert, sind die Qualifikationen. Das, was der Petabyte-Forscher (oder “Extreme Information Manager“) können muss, ähnelt eher den Kompetenzen eines Bastlers und Hackers. Die drei Kardinaltugenden eines Hackers hat Larry Wall, der Erfinder der Programmiersprache Perl, vor mehr als 20 Jahren wie folgt definiert: Faulheit, Ungeduld und Hybris. Diese drei Tugenden passen wie perfekt auf die drei Herausforderungen von Big Data:

    • Faulheit (Laziness) ist notwendig, um mit minimalen Änderungen an den Schnittstellen und Algorithmen auch auf verändernde Datenstrukturen reagieren zu können und die “schmutzigen” Daten aus unterschiedlichen Quellen miteinander zu verbinden.
    • Ungeduld (Impatience) ist die einzige Reaktionsmöglichkeit auf das Echtzeitproblem zu reagieren. Der Sozialforschungshacker muss noch ungeduldiger sein als die Geschwindigkeit, in der die Daten produziert und geliefert werden.
    • Hybris (Hybris) schließlich ergibt sich wie von selbst aus dem Ziel, in Trillionen von Daten verwertbare und aussagekräftige Muster zu finden. Ohne ein Mindestmaß an Selbstüberschätzung hätte ich mich zum Beispiel niemals hingesetzt, um ein Programm zu schreiben, das die Vernetzung von Millionen Twitterusern analysiert oder mich niemals daran gemacht, die gesamte deutschsprachige Blogosphäre zu vermessen und ihre Vernetzungsstruktur aufzuzeichnen.

    Aber nicht nur auf der Ebene der Qualifikationen und Kompetenzen hat Big Data eine disruptive Wirkung, sondern die ersten Veränderungen lassen sich auch schon bei den Geschäftsmodellen beobachten. Es entstehen immer mehr Big-Data-Marktplätze, auf denen man Datensätze und -ansichten kaufen kann. Beispiele sind Windows Azure oder Gnip. Innerhalb der Unternehmen – das sieht Edd Dumbill als einen wichtigen Trend in diesem Bereich – werden “Datascience”-Teams eingerichtet, deren Aufgabe es ist, die Ergebnisse der Extreme Data Analysis in die Unternehmensabläufe zu integrieren.

    Einen weiteren Punkt würde ich noch ergänzen: Da wir es sehr bei Big Data häufig mit vernetzten Daten zu tun haben, wird die Netzwerkanalyse (Social Network Analysis) zur neuen Leitwissenschaft der Markt- und Sozialforschung. Kaum eine andere Methode ist so gut geeignet, in sehr großen Datensätzen Muster zu identifizieren und zu visualisieren.



    Verwandte Artikel:
  • Der Aufstieg der Datenwissenschaftler
  • Datenvisualisierung
  • Digitale Stadtentwicklung oder Warum Code for America die Zukunft des digitalen Ehrenamts ist