Goldschürfen in Datenbergen

15 de abril de 2015

Big Data heißt die neue Hoffnung, das neue Gold im Silicon Valley. Big Data, das sind die Datenbestände der großen Internetunternehmen, der Energieversorger, der Kommunikationsunternehmen, das sind die Datenbanken, die durch das zunehmend digital erfasste Leben entstehen.

Für Big Data gibt keine strenge Definition, aber als Eckpunkte zur Abgrenzung dienen für gewöhnlich die drei Vs: Volume, Velocity und Variety. Es geht um Daten, die massenhaft erzeugt werden (Volume), andauernd und laufend neu entstehen (Velocity) und vielschichtig und ungeordnet sind (Variety).

Erfolg zeugt viele Kinder und im Fall von Big Data sind weitere Vs modern, etwa Veracity (Verläßlichkeit), Viability (Brauchbarkeit), Value (Wert) oder Verisimilitude (Plausibilität). Aber das waren schon immer wichtige Eigenschaften auch für herkömmliche Datenbanken.

Woher kommen nun die neuen Massen an digitalen Daten? Eine Voraussetzung war der Verfall der Kosten für Computerhardware: Speicherplatz und Rechenleistung sind immer preiswerter geworden und die Anzahl der Geräte und ihre Vernetzung über das Internet nimmt laufend zu. Damit ist die Grundlage geschaffen, Daten preiswert nicht nur elektronisch zu erfassen, zu verarbeiten und zu speichern, sondern auch in bisher nicht gekannten Detailtiefen zu erheben. Zum Beispiel nutzt das Unternehmen Pacific Gas and Electric (PG&E) seit 2012 flächendeckend in Kalifornien Smart Meter. Das sind intelligente Strom- und Gaszähler, die mehrfach in der Stunde Verbrauchswerte erfassen und elektronisch an die Zentrale verschicken, wo früher ein Mal im Jahr der Mitarbeiter mit Klemmbrett und Bleistift anreiste, die Werte notierte und dabei die Mine abbrach.

Ein weiterer wesentlicher Faktor für die Datenflut ist die Verbreitung von Smartphones. Damit ziehen wir Datenspuren durch unsere Städte und dokumentieren, wo wir sind und wen wir treffen (GPS), mit wem wir befreundet sind und was wir mögen (Facebook), was wir suchen (Google) oder was wir denken (Twitter) und natürlich mit wem wir telefonieren. Zusätzlich surfen und shoppen wir im Internet, wir sammeln Bonuspunkte, nutzen Rabatt- oder Kundenkarten und zahlen elektronisch.

Die Daten, die dabei entstehen, sind Big Data.

Big Data bringt wegen des schieren Umfangs der Daten neue Herausforderungen in der Erfassung, Sicherung und Verarbeitung. Bei Facebook etwa muss der Zugriff von über einer Milliarde aktiven Nutzern weltweit koordiniert werden. Bei Youtube werden jede Stunde über 500 Jahre Film angesehen und pro Minute 72 Stunden Film hochgeladen. Google erhält über eine Milliarde Suchanfragen am Tag.

Big Data bedeutet aber nicht nur einfach eine neue Technologie für die Versorgung der Welt mit Information. Mit Big Data ist die Hoffnung verknüpft, dass es zunehmend besser gelingen wird, die massenhaft vorhandenen und entstehenden Daten zu nutzen. Und das sinnvoll, schnell und effektiv. Auch wenn die Daten keine gemeinsamen Merkmale haben, unstrukturiert sind und aus unterschiedlichen Quellen entstammen und urprünglich zu einem ganz anderen Zweck erhoben wurden. Damit sind erhebliche Anforderungen an die Datenverarbeitung, an statistische Methoden, aber auch an Formen der Visualisierung von Informationen verbunden. Aufgaben für neue, anspruchsvolle Jobs.

Die Hoffnung ist auch, dass neue und tiefe Einblicke in gesellschaftliche Strukturen möglich werden, in Informationsströme, Warenströme, Verkehrsströme, in die Bewegung der Menschen durch die Stadt oder ihre Wanderungsbewegungen zwischen den Ländern. Einblicke in Zusammenhänge zwischen Verkehrsströmen über den Tag, Stromverbrauch in den Stadtteilen, der Auslastung der Kommunikationsnetze, zwischen Wetter, Reisen, Freundschaften und der Ausbreitung von Krankheiten.

Wir hatten bisher bestenfalls wage Vorstellungen darüber, wie einige dieser Dinge wohl zusammenhängen mögen. Durch Big Data haben wir nun immer mehr Informationen dazu. Und die Herausforderung ist nun zu lernen, wie das auszuwerten und zu verarbeiten ist. Das Ziel ist, dass wir als Gesellschaft verstehen, dass wir Zukunft prognostizieren können und dadurch auch Ressourcen besser nutzen.

Ein Beispiel für eine Anwendung von Big Data ist Google Traffic. In den Karten von Google lässt sich farbcodiert die aktuelle Verkehrssituation einblenden, von grün für flüssigen Verkehr bis schwarz für Stillstand. Die Informationen kommen von Straßensensoren, aber auch von den Nutzern der Google Navigationssoftware. Die meldet an zentrale Server zurück, wo sich der jeweilige Nutzer befindet und wie schnell er vorankommt. Aus der Summe aller Nutzer ergibt sich ein Bild über die Situation auf den Straßen – und das erfreulich genau. Irgendwann soll das nicht nur in Echtzeit funktionieren, sondern auch vorausschauend. Schließlich ist die Frage ja nicht „Wie ist die Situation jetzt?“, sondern „Wie ist die Situation, wenn ich da bin?“

Eine andere Anwendung ist die Auswertung von Twittermeldungen zum Beispiel mit dem Stichwort „Fühle mich krank“ unter Berücksichtigung von Freundschaftsbeziehungen zur Prognose der Ausbreitung von Epidemien. Der GermTracker ist für ausgewählte Großstädte in den USA und für London schon online.

Denkbar ist die Auswertung von sozialen Netzwerken nach der Zufriedenheit der Bewohner einer Stadt, eines Stadtteils oder eines Straßenzugs, nach der geografischen Verteilung von Freundschafts- oder Verwandtschaftsbeziehungen oder nach den Wanderungsbewegungen. Und das alles in Echtzeit. Dann sind zukünftig nicht mehr „plötzlich“ 1,5 Millionen Einwohner Deutschlands nicht mehr da.

Die Kehrseite ist, dass Big Data auch Einblicke in das Leben einzelner ermöglicht und das oft viel genauer, als wir das vermuten. Denn während wir uns noch für Individualisten halten, wissen es die mit massenhaften Daten ausgerüsteten Statistiker längst besser. Und das Wissen ist wertvoll, weil es Einschätzungen ermöglicht über Unfall- oder Krankheitsrisiko, zukünftigen beruflichen Erfolg, Vorlieben oder andere persönliche Umstände. Bisher werden die Daten hauptsächlich für Werbezwecke verwendet. Das amerikanische Kaufhaus Target ist schon damit aufgefallen, einem minderjährigen Mädchen Werbung für Babykleidung zu schicken, bevor es von ihrer Schwangerschaft selbst wusste.

Ein Zusammenhang zwischen dem Intelligenzquotienten und einem Facebook- „Like“ bei bestimmten Marken oder Produkten ist aber auch schon wissenschaftlich belegt. Seitdem gilt die Vermutung, dass nicht besonders intelligent ist, wer Harley Davidson gut findet oder bei „I love beeing a mom“ klickt. Es ist nur eine Frage der Zeit, bis in den riesigen Datenhalden weitere Zusammenhänge aufgedeckt werden.

Wir werden lernen müssen, damit umzugehen, Grenzen festzulegen und die Technologie zu kontrollieren. Das war schon so, als wir das Feuer entdeckt haben.

Heute ist noch offen, in welche Richtung und wie weit Big Data unsere Welt verändern wird. Der Trend ist noch jung, aber sein Potential ist zu erkennen.

Schauen wir uns zum Schluss noch an, was Big Data über sich selbst weiß: Eine Auswertung von Big Data über Big Data auf Basis aller Google Suchanfragen seit 2004. „Big Data“ kommt als Suchbegriff ab Mitte 2011 hoch und ist seitdem im Aufwärtstrend. Und noch eine Erkenntnis glitzert wie ein kleines Goldnugget in der Pfanne: Der Begriff kommt aus Indien, aus der Stadt Bangalore. Dort, wo viele amerikanische Unternehmen Callcenter betreiben. Ist das eine bahnbrechende neue Erkenntnis? Vermutlich eher nicht. Aber es ist eine Information, das Gold unserer Zeit. Wer weiß wie viel davon gefunden und was daraus entstehen wird.