Archive

Der Kontextvektor des Bundespräsidenten

Vor Jahren hatte ich an dieser Stelle schon über die große Bedeutung der gespeicherten Google-Suchanfragen als “Datenbank der Wünsche” geschrieben. Die Begriffe, die Menschen in das Google-Eingabefeld schreiben, spiegeln sehr genau ihre Wünsche wider – sowohl die offen kommunizierten als auch die geheimen.

Als Nebenbemerkung: Man könnte vermuten, dass Menschen mittlerweile ehrlicher zu ihrer Suchmaschine sind als zu ihren engsten Verwandten. Insofern sollte man intensiv über eine besondere Sorgfaltspflicht und einen besonderen Schutz dieser Daten nachdenken. Vielleicht gibt es bald neben der ärztlichen und der anwaltlichen Schweigepflicht auch so eine Art “Suchmaschinengeheimnis”, das garantiert, dass, was wir in einer Websuche über uns offenbaren, nicht in falsche Hände gerät.

Neben dieser besonderen Vertrauensstellung dieser Datenbanken, beeindruckt vor allem das hier sekündlich anfallende Wissen. Dadurch, welche Begriffe gemeinsam eingegeben werden, und welche überhaupt nicht, oder dadurch, welche Treffer dann tatsächlich angeklickt werden, und welche überlesen werden, entsteht eine Wissensdatenbank, die vielleicht sogar größer als die Wikipedia ist, da sie sich viel schneller ändert. Die Assoziation von “Bundespräsident” und “Anrufbeantworter” dürfte zum Beispiel ein sehr junges Phänomen sein. Ja, wenn es um diese aktuellsten Phänomene geht, scheinen die Algorithmen von Google sogar die Rolle eines politischen Beraters einzunehmen, der dem amtierenden Staatsoberhaupt Handlungsempfehlungen gibt:

Der Algorithmus schlägt den Rücktritt des Präsidenten vor

Der Algorithmus schlägt den Rücktritt des Präsidenten vor

Diese scheinbare Empfehlung entsteht schlicht daraus, dass diese beiden Begriffe in den letzten Tagen, Stunden besonders häufig gemeinsam in Suchabfragen verwendet wurden bzw. besonders häufig gemeinsam in Webseiten auftauchen. Diese überdurchschnittliche gemeinsamen Vorkommen (oder: Kollokationen) verwandeln die Suchmaschine aber gleichzeitig in eine neue Art von Wissensspeicher. Anhand der Struktur der sekündlich eingehenden Suchabfragen (bei Google waren es laut ComScore allein in den USA im November 13 Milliarden Abfragen) können Maschinen sehr viel darüber lernen, wie wir Menschen Begriffe und Wissen organisieren.

Eine praktische Anwendung dieses Wissensspeichers habe ich in einem schon etwas älteren, aber einflussreichen Paper (Google Scholar zählt 246 Zitationen) der beiden Google-Mitarbeiter Mehran Sahami und Timothy D. Heilman “A Web­based Kernel Function for Measuring the Similarity
of Short Text Snippets
“. Darin geht es um das Problem, die inhaltliche Ähnlichkeit von sehr kurzen Textschnippseln zu erkennen. Da es sich hierbei nur um wenige Wörter handelt, versagen klassische Methoden des Textminings wie zum Beispiel das Kosinus-Ähnlichkeitsmaß. Die Anzahl der Datenpunkte ist schlicht zu klein, um Aussagen über die Ähnlichkeit zu treffen.

Die Google-Wissenschaftler verwenden die Suchtreffer, die eine Suchmaschine wie Google auswirft, wenn man sie mit den Textschnippseln füttert, als Kontext-Vektor, mit dem sie dann die Übereinstimmung berechnen können, da er nun nicht mehr wenige Worte umfasst, sondern ein großer Corpus aus hunderten Dokumenten bzw. 1000-Zeichen langen Ausschnitten daraus darstellt. Das von ihnen beschriebene Verfahren stellt z.B. zwischen “Steve Ballmer” und “Microsoft CEO” eine Übereinstimmung von 0.838 fest, während das Kosinusmaß hier auf einen Wert von 0 gekommen wäre. Auch zwischen dem früheren CEO “Bill Gates” und “Microsoft CEO” gibt es eine Ähnlichkeit von immerhin 0.317 – aber auch seine korrekte Beziehung zu Microsoft findet dieses Maß heraus: “Bill Gates” und “Microsoft Founder” erzielt 0.677.

Abb. aus Sahami/Heilman (2006), S. 4

Abb. aus Sahami/Heilman (2006), S. 4

Der erste Anwendungsfall dieses Verfahrens, der hier in den Sinn kommt, sind natürlich die automatischen Vorschläge bei Suchabfragen. Insofern ist das oben beschriebene Wulff-Beispiel also nicht unbedingt eine politische Handlungsempfehlung, sondern das Ergebnis des Vergleichs von Kontextvektoren.



Verwandte Artikel:
  • Der Appstore als Netzwerk – Newsreader, Newsportale und digitale Zeitungen
  • Katzenbilder sind der Kitt der Gesellschaft – oder: Die drei Arten von Information im Internetzeitalter

    Indem der Zeitungsleser beobachtet,
    wie exakte Duplikate seiner Zeitung in der U-Bahn,
    beim Friseur, in seiner Nachbarschaft konsumiert werden,
    erhält er ununterbrochen die Gewißheit,
    daß die vorgestellte Welt sichtbar im Alltagsleben verwurzelt ist.

    Benedict Anderson

    Lagerfeuer

    Zwei Sentenzen hört man immer wieder, wenn es um die gesellschaftliche Funktion von Medien geht. Der erste Satz lautet: “Das Fernsehen ist das Lagerfeuer der Nation”. Je nachdem, aus welcher Generation man stammt, mögen die Assoziationen unterschiedlich sein und von Wandervögeln über Pfadfinder bis Indianern reichen. Impliziert sind aber immer die folgenden Dinge: Geselligkeit, Gesang, manchmal: Bohnen aus der Dose.

    Immer jedoch geht es um ein Leuchten inmitten einer dunklen Nacht, das von irgendjemandem bewacht werden muss. Die kalte Einheit der Nation wird durch das Lagerfeuer zu einem spürbar warmen Zusammenhalt. So zumindest die Ideologie der Fernsehmacher, die diesen Satz gerne immer wieder aufwärmen.

    Klebstoff

    Der zweite Satz lautet: “Informationen sind der Kitt der Gesellschaft.” Immerhin, dieser Satz kommt ohne das wärmende Feuer des Fernsehbildes aus und beschränkt sich auf die formale Feststellung, dass Informationen die Gesellschaft zusammenhalten. Geht man von einigermaßen orthodoxen Interpretationen der Systemtheorie aus, ist der Satz eine bloße Tautologie. Wenn Gesellschaft zum Beispiel nach Luhmann das größte soziale System darstellt und soziale Systeme aus Kommunikationen bestehen, versteht sich der Satz von selbst.

    Aber meistens ist dieser Satz viel normativer gemeint (Luhmann würde diese normative Deutung nicht mit einer Zange anfassen). Dann geht es nämlich um den normativ guten Zusammenhalt, der bedroht ist, wenn die Information nicht mehr das leistet, was sie tut – integrieren. Das klingt bei Meckel dann so:

    Es gäbe keinen kritischen Diskurs mehr, und damit würde unser System auseinanderfallen. Informationen sind der Kitt, der unsere Gesellschaft zusammenhält. In meinem Buch treibe ich diese Idee auf die Spitze: Die Menschheit schafft sich durch die Perfektionierung der Algorithmen selbst ab.

    Je mehr die Algorithmen uns in einer Filterblase einlullen, desto geringer die Chance der systemintegrierenden Informationen, uns noch zu erreichen. Irgendwann fällt die Gesellschaft dann auseinander. An dieser Stelle wird es aber spannend. Meckel hat gar nicht einmal Unrecht mit der gesellschaftlichen Funktion der Medien. Medien stützen, ja schaffen sogar Gesellschaften. Die ersten Nationalstaaten des 19. Jahrhunderts waren Drucksachen. Erst die massenhafte Vervielfältigung immer derselben Informationen schaffte in den Köpfen der Menschen eine homogene Vorstellung von Gesellschaft und Nation.

    Aber Meckel verwendet die falsche Zeitform. Informationen waren dieser Kitt, haben diese Funktion aber in der Gegenwart verloren. Nach wie vor sind heute, im Informationszeitalter, Informationen eine Art Kitt. Aber, was dadurch zusammengeklebt wird, ist nicht mehr die eine Gesellschaft, sondern sind viele unterschiedliche, überlappende, große, kleinere, feste, lose Gemeinschaften. Oder wie es der Presseschauer formuliert: Katzenbilder sind der Kitt der Gesellschaft.

    Vor allem hat sich die Art der Information verändert. Es geht nicht mehr um die journalistisch recherchierten und nach Maßgabe der Aufmerksamkeitsfaktoren aufbereiteten Nachrichten für ein durchschnittliches allgemein-gebildetes Publikum. Stattdessen spielen für die Gemeinschaften im Internetzeitalter folgende drei Formen der Information die zentrale Rolle:

    Die drei Arten von Information der Internetgesellschaft

    • Schwarmähnliche Status- und Positionsmeldungen, mit denen wir den anderen Mitgliedern unserer virtuellen Stämme mitteilen, wo wir uns gerade aufhalten und wie unsere Koordinaten relativ zu den anderen Mitgliedern aussehen. Diese Informationsaufnahme geschieht häufig gar nicht voll bewusst, sondern diese “ambient intimacy” wird reflexartig hergestellt. Wir merken vor allem das Fehlen eines Signals / einer Statusmeldung, zumal uns diese Aufmerksamkeit immer stärker von Technologien abgenommen wird. Wenn die Signale vorhanden sind, ist alles in Ordnung, die Gewissheit der (sozialen) Welt kann weiter bestehen.
    • Hermetische Symbolkommunikation, also Meme, die nur innerhalb einer bestimmten Community verständlich ist, außerhalb aber nur als Rauschen oder “Gibberish” wahrgenommen wird. Katzenbilder fallen in diese Kategorie, obwohl sie zu den exoterischsten Spielarten dieser Form von Informationen gehören. Sie können zumindest im Rahmen von Parametern wie “süß” oder “seltsam” auch außerhalb der Gemeinschaften dekodiert werden.
    • Kommunikative Feedbackschleifen, die sehr schnell zu kreisenden oder sich aufschaukelnden und schließlich eskalierenden Erregungszuständen führen können. Zahlreiche jüngere Beispiele zeigen die systemzersetzende Wirkung dieser Kommunikationsform. Hier ist die Information alles andere als Kitt, sondern gesellschaftlicher Sprengstoff.

    Alle drei Arten taugen nicht recht als gesellschaftlicher Kitt, sondern lösen gesellschaftliche Strukturen auf oder stärken tribale Formen der Vergemeinschaftung. Die Statusmeldungen, weil sie reflexartig ablaufen, die Meme, weil sie soziale Substrukturen fördern und die Feedbackschleifen auf Grund der Neigung zur Eskalation.



    Verwandte Artikel:
  • Der Aufstieg der Datenwissenschaftler
  • Twittern auf der Kaiserstiege
  • Einmal mehr: Journalisten vs. Blogger
  • Das Internet, die Gatekeeper und die Qualität

    Fragt man nach den Auswirkungen des Internets auf die Qualität, dann erhält man, je nachdem, wem man diese Frage stellt, unterschiedliche Antworten:

    In der ersten Variante hat das Internet zu einem unglaublichen Abfall der Qualität geführt. In diese Argumentation passt die Polemik gegen die Klowände genauso wie die etwas ruhiger verlaufende Debatte über das Kuratieren als neue Aufgabe der Redaktionen. Als Beispiel für den massiven Qualitätsverlust durch das Internet wird üblicherweise die Wikipedia zitiert, in der es sehr viele miserabel recherchierte, tendenziös geschriebene und immer wieder von Vandalismus heimgesuchte Artikel gibt.

    Früher sorgten in den Massenmedien Redakteure oder im Wissenschaftssystem langwierige Peer-Review-Prozesse dafür, dass am Ende nur geprüfte Qualität gedruckt bzw. publiziert wurde. Wenn diese Instanzen wegfallen – und im Internet kann man an ihnen vorbei publizieren – gibt es keinen Garant mehr für die Qualität der Veröffentlichungen. “Da kann ja jeder herkommen und etwas veröffentlichen!

    In der zweiten Variante ist durch das Internet ein bisher nicht dagewesener Anstieg der Qualität möglich geworden. Jeder kann im Web ein Blog eröffnen und über seine Erfahrungen in Beruf, Leben, Politik, Familie … publizieren. Wissenschaftler, die über Randgebiete von Orchideenfächer forschen, erreichen im Internet mit ihren Forschungsergebnissen genau diejenigen fünf über die Welt verteilten Kolleginnen, die sich für genau dieselben Phänomene interessieren. Jeder kann schreiben, filmen, fotografieren, komponieren … und seine Werke dann auf Plattformen wie Tumblr, Instagram, Vimeo oder Soundcloud hochladen und der Öffentlichkeit zugänglich machen. Als Beispiel für die unglaubliche Qualitätssteigerung durch das Internet wird üblicherweise die Wikipedia zitiert, in der es sehr viele umfassend recherchierte, objektiv geschriebene und immer wieder verbessert, ergänzt und kommentierte Artikel gibt.

    Zu den Aufgaben der Redakteure und Peer-Reviewer gehörte nicht nur die Qualitätssicherung nach unten, sondern auch nach oben. Die wirklich brillanten Forscher und Künstler hatten zu Lebzeiten große Schwierigkeiten, in das offizielle gesellschaftliche Publikationssystem zu gelangen, da ihre Gedanken und Werke damals von den Gatekeepern nicht verstanden oder gefürchtet wurden. Qualitätssicherung heißt immer auch Bewahrung, Innovationsfeindlichkeit und dadurch letztlich Förderung des Mittelmaßes.

    Das kommt auch schon daher, dass die Gatekeeper die Aufgabe haben, auf den Bedarf und die Möglichkeiten eines bestimmten Publikums zu achten – eines Publikums mit bestimmten Voraussetzungen und Beschränkungen. Im Fall der Redakteure ist dies häufig eine “allgemein-gebildete Öffentlichkeit”, im Fall der Wissenschaftler die “scientific community”. Um die Arbeit der Gatekeeper zu erleichtern, nimmt man bei beiden Öffentlichkeiten zum Beispiel einen bestimmten Bildungsgrad an. Die französische Revolution kann hier als bekannt vorausgesetzt werden, während die Oberbayerische Postbauschule erklärt werden muss. Ganz ähnlich funktioniert das in der Wissenschaft, da hier zwar viel mehr Fachwissen vorhanden ist, aber jeder Wissenschaftler in fast allen Disziplinen und Subdisziplinen außer der eigenen ein Laie ist.

    Im Internet ist niemand dafür zuständig, für Rücksicht auf die Bedürfnisse und Voraussetzungen der unterschiedlichen Öffentlichkeiten zu sorgen. Jeder kann (und dies geschieht natürlich auch) so schreiben, dass es nur eine einzige Person – nämlich sie oder er selbst – verstehen kann. Aber noch häufiger richtet sich der Autor an eine mehr oder weniger esoterische Deutungs- oder Erlebnis-Gemeinschaft. Das Schreiben ins Internet zerstört die klaren Vorstellungen von Massen- und Durchschnittsöffentlichkeiten und ähnelt damit eher den hoch-metaphorischen hermetischen Texten der Alchemisten als den Fernsehnachrichten um 20 Uhr.

    Insofern ist die Frage nach der Qualität eine überflüssige oder falsch gestellte Frage: Das Internet hat die Qualität stark vermindert, und das Internet hat die Qualität stark gesteigert. Aber vor allem ist es dabei, unsere Vorstellungen einer einheitlichen Zuschauer-, Hörer- und Leserschaft aufzulösen. Mit allen positiven und negativen Folgen.



    Verwandte Artikel:
  • Online wie Offline. Zimmermann über Online-Öffentlichkeiten
  • Der Aufstieg der Datenwissenschaftler
  • Katzenbilder sind der Kitt der Gesellschaft – oder: Die drei Arten von Information im Internetzeitalter
  • Die Isarrunde fast live

    Demnächst werden wir die wohl erfolgreichste deutsche Webtalk-Fernsehsendung live aufzeichnen. Mit unseren neuen Geräten können wir Bild und Ton zukünftig live abmischen und gehen dann mit fertig produzierten Sendungen aus der Niederlassung. Das technische Setup erklärt unser Cheftechniker Michael Praetorius in diesem kurzen Video:

    Die nächsten beiden Folgen werden noch einmal auf die alte Weise produziert und im neuen Jahr geht es dann mit der Liveaufzeichnung los. Zusammengepackt sieht das Studio, das nahezu dieselben Möglichkeiten bietet wie sie vor 10 Jahren in einen Ü-Wagen gepasst hatten, so aus:



    Verwandte Artikel:
  • Die Renaissance des persönlichen Gesprächs
  • Kulturelle Vielfalt oder Einheitsbrei?
  • Neues metaroll-Feature: Neue Blogs
  • Als der Retweet noch Trackback hieß

    So war das damals, als man noch gebloggt hat. Als Facebook und Twitter noch nicht die wichtigsten Plattformen für das Teilen und Diskutieren von Links und Meinungen war. Als das noch Trackback hieß und nicht Retweet. Als man sich noch ernsthaft über den zwischen Bloggern und Journalisten echauffieren konnte. Als man den neuen Tag nicht mit dem Blick auf den Klout-Score begonnen hat, sondern mit dem Blick auf Blogscout oder die Deutschen Blogcharts. Als dieses Blog in der Zeit das südlichste Top 100-Blog in Deutschland gewesen ist:

    Das großartige an der Blogosphäre ist: Die meisten dieser Namen gibt es immer noch. Und zwar nicht nur als Archive, sondern als lebendige Publikations- und Diskussionsorte. Das gilt nicht nur für diesen 2008er Blick auf die deutschsprachige Blogosphäre, sondern für die gesamte Geschichte der Blogs in Deutschland, wie ich sie vor Jahren einmal in dem Blog History Project aufgezeichnet habe:

    (Anmerkung zu fehlenden Ur-Blogs sind jederzeit willkommen)



    Verwandte Artikel:
  • Scientific American versucht sich am Prinzip Trackback
  • 10+ Gründe für oder gegen Trackbacklinks in der Blogosphäre
  • RT: Homo sapiens sapiens
  • Das Finanzierungsnetzwerk der Social Networks

    Follow the Money!
    (All the President’s Men)

    Eine der faszinierendsten Programmierschnittstellen zum Thema Social Media ist die API der Crunchbase, einer Datenbank, in der alle wichtigen Finanzierungsrunden und Übernahmen von Internetunternehmen verzeichnet sind. Diese API spuckt, wenn man ihr die richtigen Fragen stellt, die finanziellen Beziehungen zwischen Internetunternehmen und ihren Kapitalgebern vom kleinen Tech-Investor bis zu Morgan Stanley und Goldman Sachs. Da diese Daten in strukturierter Form vorliegen, lassen sie sich sehr bequem automatisiert in ein Datenformat übertragen, das sich für die Social Network Analysis nutzen lässt.

    Ich habe hier einmal die finanziellen Zusammenhänge der Social Networks mit Hilfe von Pajek aufgezeichnet: von den Riesen Facebook und Twitter bis hin zu den kleinen Startups Pinterest und Path. Diese Grafik zeigt also nichts weniger als das Social Network der Social Networks – die Verteilung von knapp 4 Milliarden USD Investitionsvolumen. Die Größe der Knoten entspricht jeweils in etwa der Investitionshöhe (klick zum Vergrößern).

    Visualisierung des Social Networks der Social Networks



    Verwandte Artikel:
  • Wenn Social Networks Bundesländer wären …
  • Social Networking nun auch in Deutschland Mainstream
  • Der Appstore als Netzwerk – Newsreader, Newsportale und digitale Zeitungen
  • Visuell ist besser – die memetische Kraft der Bilder

    Auf der Strasse denken Leute:
    Wie sieht der denn aus ?

    (Tocotronic)

    Man kann viel Schlechtes über Instragram sagen. Instagram bedient mit seinen Filtern eine wohlfeile Nostalgie einer Generation, die mit Polaroid und Commodore aufgewachsen ist. Instagram schafft es, die schon schlechte Bildqualität der Handyfotografie noch weiter zu verschlechtern. Instagram nervt, weil jeden Tag irgendjemand in der Timeline gerade den Tilt-Shift-Effekt für sich entdeckt. Ach, warum so differenziert: Instagram ist der Untergang der Fotografie.

    An allen Vorwürfen mag ein Körnchen Wahrheit sein. Aber Instagram hat einen einzigen, ganz grandiosen und unleugbaren Vorteil. Es sind Bilder. Egal wie schlecht die Qualität, wie zuckerwattig der Retrofilter oder wie abendlandszerstörend das Prinzip ist. Instagram sind Bilder, viele Bilder, und das macht diese Anwendung unglaublich spannend und wertvoll.

    ReadWriteWeb berichtet, dass Instagram kurz davor ist, Foursquare als größtes mobiles Social Network abzulösen. Mich überrascht das nicht, denn Bilder sind Trumpf. Den Grund dafür entdeckt man schnell, wenn man sich mit der Memetik, der Wissenschaft von der viralen Verbreitung im Netz, auseinandersetzt. Bilder haben gegenüber Texten (oder Orten) drei große Vorteile:

    • Bilder sind nicht-sprachlich. Man kann Bilder aus anderen Ländern verstehen, auch wenn man die Sprache nicht spricht. Die Bildermeme von #ows, #londonriots und #arabspring werden rund um die Welt verstanden. Inhalte wie Katzenbabys oder Apple-Gadgets scheinen fast schon anthropologische Universalien zu sein, die unseren Gehirnen fest eingeprägt sind.
    • Bilder sind metaphorisch. Ein Bild ist fast immer sehr viel mehr als nur ein Bild, da es sich auf andere Bilder, Texte, Ideen beziehen kann. Ein Bild, auf dem eine Menschenmenge mit Besen über die Straße zieht, kann sich genauso gut auf das Thema Sauberkeit im öffentlichen Raum beziehen wie auf Gewaltexzesse. Mit Bildern lassen sich komplexe Inhalte transportieren oder hermetische Gemeinschaften schaffen (siehe dazu zum Beispiel die Bilderwelt der Freimaurer)
    • Bilder sind magnetisch. An Bildern kann man nur schwer vorbeigehen. Bilder ziehen die Aufmerksamkeit an sich. Anwendungen wie Flipboard spendieren nicht ohne Grund den Bildern der von ihnen aggregierten Artikel den größten Bildschirmplatz, damit man über die Bilder in die einzelnen Texte einsteigt.

    Wir leben inmitten in einer memetischen Wende (memetic turn). Das bedeutet, dass wir in der nächsten Zeit viele neue Formen der Bildersprache entdecken und vielen älteren wieder begegnen werden.



    Verwandte Artikel:
  • Die Datenbank der Wünsche, Folksonomies und Trampelpfade
  • Szenenforschung: “Generic EMO Boy”
  • Brief an die Deutsche Nationalbibliothek
  • Big Data und die Hackertugenden


    Big Data am Beispiel Foursquare

    Wenn ich nach den wichtigsten Trends gefragt werde, die in den nächsten Jahren ganz oben auf der Agenda der Markt- und Sozialforschung stehen werde, ist “Big Data” eine meiner Standardantworten. Der Begriff ist schon etwas älter: Bereits 2001 hat der Gartner-Analyst Doug Laney in einem Forschungsmemorandum drei Dimensionen von Big Data skizziert:

    • Umfang (Volume): Big Data heißt, dass besonders viele Daten anfallen. Beispiele sind der Twitter-Stream oder die Verlinkung von Blogposts. Hier sprechen wir nicht mehr von Tausenden oder Hunderttausenden Datensätzen, die man mit den üblichen Analysetools noch bewältigen kann, sondern von Millionen oder Milliarden von Datensätzen. Hier kommt man mit SPSS oder Excel nicht mehr weiter, sondern hier sind neue Ansätze gefordert, wie sie zum Beispiel bei Hadoop und Tableau zu sehen sind (oder in kommerziellen Anwendungen wie Karmasphere oder Datameer, die auf dem Hadoop-Framework aufsetzen)
    • Geschwindigkeit (Velocity): Diese Daten, das ist die zweite “große” Dimension, fallen häufig in Echtzeit bzw. sehr schnell an. Das übliche Forschungsdesign mit den sauberen Schritten: Datenerhebung -> Datenbereinigung -> Datenauswertung funktioniert hier nicht mehr. Auch für die Echtzeitverarbeitung von Streams gibt es mit S4 oder Storm schon die ersten Open-Source-Anwendungen. Ganz abgesehen davon, dass sich die Spezifikationen und Algorithmen der Plattformen nahezu im Monatsrhythmus ändern.
    • Unordnung (Variety / Variability): Dazu kommt, dass die Daten auch nicht mehr so sauber mit Metadaten versehen sind wie in der klassischen Sozialforschung. Die Datensätze, die man über die Schnittstellen der Social Networks bekommt, besitzen alle unterschiedliche Quellen und sind von den Networks auf unterschiedliche Weise hergestellt worden. Große Datensätze sind in der Regel auch schmutzige Datensätze.

    Niemand weiß genau, wie viele Daten wir tatsächlich jeden Tag produzieren. Eine Schätzung von IBM geht von 2,5 Trillionen Bytes Datenvolumen am Tag aus. Eine Faustregel lautet: Wenn man nachschlagen muss, wie viele Nullen hinter einem Zahlennamen steckt, dann hat man es mit Big-Data-Dimensionen zu tun (in diesem Fall: 2.500.000.000.000.000.000). Die Datenmengen, mit denen sich die Onlineforschung heute herumschlägt, sind Größenordnungen, für die man in der Schule nicht einmal die entsprechenden Zahlennamen gelernt hatte. Weil man sie damals nur theoretisch gebraucht hätte.

    Was an dieser Entwicklung so verrückt ist: Zunächst würde man meinen, je mehr Daten es werden, desto schwieriger und komplexer auch die Erhebung und der Umgang mit diesen Daten. Weit gefehlt! Heute kann ein Student mit Hilfe von Amazon-Cloudcomputing die APIs von Social Networks wie Facebook, Twitter, Foursquare etc. anzapfen, und binnen weniger Tage liegen in seiner Datenbank mehr Sozial- und Verhaltensdaten als die gesamte Markt- und Sozialforschung während der 50er und 60er Jahren erhoben hat. Man könnte vermuten: Je größer die Dimensionen der Big Data werden, desto niedriger die Zugangshürden. Auch die Bereinigungs- und Analysetools stehen häufig als Open-Source-Software zur Verfügung.

    Was sich allerdings ändert, sind die Qualifikationen. Das, was der Petabyte-Forscher (oder “Extreme Information Manager“) können muss, ähnelt eher den Kompetenzen eines Bastlers und Hackers. Die drei Kardinaltugenden eines Hackers hat Larry Wall, der Erfinder der Programmiersprache Perl, vor mehr als 20 Jahren wie folgt definiert: Faulheit, Ungeduld und Hybris. Diese drei Tugenden passen wie perfekt auf die drei Herausforderungen von Big Data:

    • Faulheit (Laziness) ist notwendig, um mit minimalen Änderungen an den Schnittstellen und Algorithmen auch auf verändernde Datenstrukturen reagieren zu können und die “schmutzigen” Daten aus unterschiedlichen Quellen miteinander zu verbinden.
    • Ungeduld (Impatience) ist die einzige Reaktionsmöglichkeit auf das Echtzeitproblem zu reagieren. Der Sozialforschungshacker muss noch ungeduldiger sein als die Geschwindigkeit, in der die Daten produziert und geliefert werden.
    • Hybris (Hybris) schließlich ergibt sich wie von selbst aus dem Ziel, in Trillionen von Daten verwertbare und aussagekräftige Muster zu finden. Ohne ein Mindestmaß an Selbstüberschätzung hätte ich mich zum Beispiel niemals hingesetzt, um ein Programm zu schreiben, das die Vernetzung von Millionen Twitterusern analysiert oder mich niemals daran gemacht, die gesamte deutschsprachige Blogosphäre zu vermessen und ihre Vernetzungsstruktur aufzuzeichnen.

    Aber nicht nur auf der Ebene der Qualifikationen und Kompetenzen hat Big Data eine disruptive Wirkung, sondern die ersten Veränderungen lassen sich auch schon bei den Geschäftsmodellen beobachten. Es entstehen immer mehr Big-Data-Marktplätze, auf denen man Datensätze und -ansichten kaufen kann. Beispiele sind Windows Azure oder Gnip. Innerhalb der Unternehmen – das sieht Edd Dumbill als einen wichtigen Trend in diesem Bereich – werden “Datascience”-Teams eingerichtet, deren Aufgabe es ist, die Ergebnisse der Extreme Data Analysis in die Unternehmensabläufe zu integrieren.

    Einen weiteren Punkt würde ich noch ergänzen: Da wir es sehr bei Big Data häufig mit vernetzten Daten zu tun haben, wird die Netzwerkanalyse (Social Network Analysis) zur neuen Leitwissenschaft der Markt- und Sozialforschung. Kaum eine andere Methode ist so gut geeignet, in sehr großen Datensätzen Muster zu identifizieren und zu visualisieren.



    Verwandte Artikel:
  • Der Aufstieg der Datenwissenschaftler
  • Datenvisualisierung
  • Digitale Stadtentwicklung oder Warum Code for America die Zukunft des digitalen Ehrenamts ist
  • Twitteranalyse for Dummies

    Als ich vor drei Jahren die Twitter-Analysesoftware BrandTweet geschrieben habe (damals noch unter dem ursprünglichen Namen TwitterFriends), dachte ich schon, ich hätte mit diesem Lob von Tim O’Reilly höchstpersönlich alles erreicht, was man im Bereich Web 2.0 erreichen kann. Ich meine, er hat das Web 2.0 erfunden!

    Aber so etwas lässt sich durchaus noch steigern. Denn das Tool hat es jetzt sogar an sehr prominenter Stelle in den Ratgeber “Twitter Marketing for Dummies” (Wiley-Verlag) geschafft, wo es neben Tweetdeck und HootSuite eines von “Ten Tools for Twitter Productivity” genannt und beschrieben wird:

    Das Tool ist nach zwei Namensänderungen unter dieser URL zu finden: stats.brandtweet.com.



    Verwandte Artikel:
  • Code, Hacks & Projects
  • Leben mit Reputationsservern

    Als Science-Fiction-Autor hat man es heute ziemlich schwer. Früher, da stand man mit allem was man getan hat und insbesondere in kreativen Berufen, auf den Schulter von Riesen. Man ordnete sich mit seinem eigenen Beitrag in eine Lineage ein. Der Markt ließ sich vertikal gliedern nach der klassischen Vorstellung von Schulen.

    Heute leben wir immer horizontaler. Eines der geheimen Mantras der Netzwerkgesellschaft (ja überhaupt von Netzwerken) lautet: Alles ist jederzeit verfügbar. Über Google Books kann man Millionen von Buchseiten durchblättern oder durchsuchen, um sich Inspirationen zu verschaffen oder seiner eigenen Originalität zu versichern. “Das hat so noch keiner gesagt,” ist auf einmal nicht nur eine Eigenmarketingtechnik, sondern eine empirisch zu überprüfende These.

    Der andere Punkt ist natürlich, dass die Dinge, die vor zehn Jahren nach Science Fiction geklungen haben, mittlerweile zum Alltag gehören. Ausnahmen gibt es freilich: Zum Beispiel hat sich der kreuz und quer auf mehreren Ebenen verlaufende Innenstadtverkehr, der in jedem Science-Fiction-Film zu sehen ist, immer noch nicht durchgesetzt.

    Besonders spannend ist es, wenn man es mit Ideen zu tun hat, die gerade von Science Fiction in Everyday Science umkippen. Ich denke, die Idee der “Reputationsserver”, die Bruce Sterling 1998 in seinem furiosen Roman Distraction ausgearbeitet hat, setzt sich in diesem Moment durch. Ich habe einmal den Versuch gemacht, “Reputationsserver” (reputation server) vor dem Erscheinen von Sterlings Roman im Web zu finden. Google spuckt nur einen Treffer aus – und das ist ein PDF aus dem Jahr 2000, das fälschlicherweise in das Jahr 1987 gesteckt wurde.

    Nebenbemerkung: Im Moment ist so eine Fehlzuordnung noch nebensächlich, aber wer weiß, welche Entscheidungen in Zukunft an solchen Kleinigkeiten hängen werden. Nebenbemerkung 2: Der Titel dieses Aufsatzes (“An Exception-Handling Architecture for Open Electronic Marketplaces of Contract Net Software Agents”) klingt gar nicht uninteressant. Die Agententheorie ist sowieso eine völlig zu Unrecht aus der Mode geratenen Projekte.

    In dem Roman gibt es zahlreiche nomadische High-Tech-Stämme. Diese Stämme verwenden verteilte Infrastrukturen von Reputationsservern, auf denen jedes Stammesmitglied einen Datenbankeintrag hat, der in Echtzeit aufgrund seiner Handlungen bzw. der Bewertungen anderer Stammesmitglieder aktualisiert wird. So kann es sein, dass man von einem Tag auf den nächsten vom Corporal zum Captain befördert werden – oder in die umgekehrte Richtung degradiert. Bei Sterling kommen schon 1998, als noch niemand vom Social Web gesprochen hat, zwei Grundprinzipien zusammen. Zu einem: Menschen vergleichen sich gerne mit anderen Menschen (siehe die große Bloggercounter-Euphorie der späten Nuller Jahre). Zum anderen: Menschen spielen gerne. Ranking und Gamification hat Sterling also schon 1998 zusammengedacht – und zwar beides vermittelt durch das Internet:

    Let’s say you’re in the Regulators — they’re a mob that’s very big around here. You show up at a Regulator camp with a trust rep in the high nineties, people will make it their business to look after you. Because they know for a fact that you’re a good guy to have around [...] It’s a network gift economy.

    Heute habe ich auf AdWeek eine Illustration gefunden, die im Nachhinein eine wunderbare Bebilderung zu Sterlings Roman darstellt. Und auch die Namen dieser Services – insbesondere in ihrer “k”-Lastigkeit – könnten direkt aus den tribalen Netzwerken der Regulators oder Moderators entnommen sein. Übrigens: Auch die Occupy-Bewegung wird in diesem Roman schon detailliert beschrieben.

    Wer das von mir programmierte Reputationsserver-ähnliche Tool “BrandTweet Statistik” einmal ausprobieren möchte: Hier ist der Link.



    Verwandte Artikel:
  • Leben in 140 Zeichen
  • Der Anfang? “Frisch auf den Tisch”
  • Fokus: Berufsblogs