Der Kontextvektor des Bundespräsidenten

Vor Jahren hatte ich an dieser Stelle schon über die große Bedeutung der gespeicherten Google-Suchanfragen als “Datenbank der Wünsche” geschrieben. Die Begriffe, die Menschen in das Google-Eingabefeld schreiben, spiegeln sehr genau ihre Wünsche wider – sowohl die offen kommunizierten als auch die geheimen.

Als Nebenbemerkung: Man könnte vermuten, dass Menschen mittlerweile ehrlicher zu ihrer Suchmaschine sind als zu ihren engsten Verwandten. Insofern sollte man intensiv über eine besondere Sorgfaltspflicht und einen besonderen Schutz dieser Daten nachdenken. Vielleicht gibt es bald neben der ärztlichen und der anwaltlichen Schweigepflicht auch so eine Art “Suchmaschinengeheimnis”, das garantiert, dass, was wir in einer Websuche über uns offenbaren, nicht in falsche Hände gerät.

Neben dieser besonderen Vertrauensstellung dieser Datenbanken, beeindruckt vor allem das hier sekündlich anfallende Wissen. Dadurch, welche Begriffe gemeinsam eingegeben werden, und welche überhaupt nicht, oder dadurch, welche Treffer dann tatsächlich angeklickt werden, und welche überlesen werden, entsteht eine Wissensdatenbank, die vielleicht sogar größer als die Wikipedia ist, da sie sich viel schneller ändert. Die Assoziation von “Bundespräsident” und “Anrufbeantworter” dürfte zum Beispiel ein sehr junges Phänomen sein. Ja, wenn es um diese aktuellsten Phänomene geht, scheinen die Algorithmen von Google sogar die Rolle eines politischen Beraters einzunehmen, der dem amtierenden Staatsoberhaupt Handlungsempfehlungen gibt:

Der Algorithmus schlägt den Rücktritt des Präsidenten vor

Der Algorithmus schlägt den Rücktritt des Präsidenten vor

Diese scheinbare Empfehlung entsteht schlicht daraus, dass diese beiden Begriffe in den letzten Tagen, Stunden besonders häufig gemeinsam in Suchabfragen verwendet wurden bzw. besonders häufig gemeinsam in Webseiten auftauchen. Diese überdurchschnittliche gemeinsamen Vorkommen (oder: Kollokationen) verwandeln die Suchmaschine aber gleichzeitig in eine neue Art von Wissensspeicher. Anhand der Struktur der sekündlich eingehenden Suchabfragen (bei Google waren es laut ComScore allein in den USA im November 13 Milliarden Abfragen) können Maschinen sehr viel darüber lernen, wie wir Menschen Begriffe und Wissen organisieren.

Eine praktische Anwendung dieses Wissensspeichers habe ich in einem schon etwas älteren, aber einflussreichen Paper (Google Scholar zählt 246 Zitationen) der beiden Google-Mitarbeiter Mehran Sahami und Timothy D. Heilman “A Web­based Kernel Function for Measuring the Similarity
of Short Text Snippets
“. Darin geht es um das Problem, die inhaltliche Ähnlichkeit von sehr kurzen Textschnippseln zu erkennen. Da es sich hierbei nur um wenige Wörter handelt, versagen klassische Methoden des Textminings wie zum Beispiel das Kosinus-Ähnlichkeitsmaß. Die Anzahl der Datenpunkte ist schlicht zu klein, um Aussagen über die Ähnlichkeit zu treffen.

Die Google-Wissenschaftler verwenden die Suchtreffer, die eine Suchmaschine wie Google auswirft, wenn man sie mit den Textschnippseln füttert, als Kontext-Vektor, mit dem sie dann die Übereinstimmung berechnen können, da er nun nicht mehr wenige Worte umfasst, sondern ein großer Corpus aus hunderten Dokumenten bzw. 1000-Zeichen langen Ausschnitten daraus darstellt. Das von ihnen beschriebene Verfahren stellt z.B. zwischen “Steve Ballmer” und “Microsoft CEO” eine Übereinstimmung von 0.838 fest, während das Kosinusmaß hier auf einen Wert von 0 gekommen wäre. Auch zwischen dem früheren CEO “Bill Gates” und “Microsoft CEO” gibt es eine Ähnlichkeit von immerhin 0.317 – aber auch seine korrekte Beziehung zu Microsoft findet dieses Maß heraus: “Bill Gates” und “Microsoft Founder” erzielt 0.677.

Abb. aus Sahami/Heilman (2006), S. 4

Abb. aus Sahami/Heilman (2006), S. 4

Der erste Anwendungsfall dieses Verfahrens, der hier in den Sinn kommt, sind natürlich die automatischen Vorschläge bei Suchabfragen. Insofern ist das oben beschriebene Wulff-Beispiel also nicht unbedingt eine politische Handlungsempfehlung, sondern das Ergebnis des Vergleichs von Kontextvektoren.



Verwandte Artikel:
  • Der Appstore als Netzwerk – Newsreader, Newsportale und digitale Zeitungen
  • 0 Responses to “Der Kontextvektor des Bundespräsidenten”


    1. No Comments

    Leave a Reply