Zentrale Themen

Woher kommt Big Data?

Abstract

Big Data

Was ist Big Data?

„Big Data“ gehört zu den am häufigsten verwendeten Begriffen, wenn es um neue Technologien geht. Oft wird er verwendet, um darauf hinzuweisen, dass immer mehr Daten produziert und auf unterschiedliche Art und Weise ausgewertet werden.

Konkret beschreibt der Begriff Big Data vier grundsätzliche Phänomene: die Größe der verarbeiteten Daten, die Geschwindigkeit der Verarbeitung, die Vielfalt der Daten und die Aufrichtigkeit der Daten, d.h. die Qualität der Daten (in Bezug auf Herkunft, Inhalt, Vertrauenswürdigkeit).

Big Data gilt als einer der großen Innovationstreiber weltweit: In den kommenden Jahrzehnten werden durch Big Data zahlreiche Berufe sich stark verändern und gleichzeitig neue Berufsbilder entstehen. 

Image
Image
Grafik Erdball mit Verbindungslinien

Bei Big Data handelt es sich, vereinfacht gesagt, um immer weiterwachsende Datenmengen. Diese Datensätze erreichen Dimensionen, die ein Desktop-Rechner nicht mehr verarbeiten könnte. Das ist kein Wunder, denn sie sind oft viele Terabyte groß – umfassen also Tausende Gigabyte. 

Wenn man bedenkt, dass die Festplatten gewöhnlicher Computer heute bereits mit einer Terabyte-Zahl im niedrigen zweistelligen Bereich operieren, kann man sich die enormen Datenmengen von Big Data vorstellen. 

Weil die Datensätze so groß sind, müssen viele Computer gleichzeitig an ihnen arbeiten, in der Regel zwischen zehn und 100 (je nach Anwendungsfeld sogar Hunderte oder Tausende). Die Daten werden automatisch verteilt: Wird die Datenmenge größer, wächst auch die Zahl der Rechner.

Diese Verteilung muss reibungslos funktionieren und wird als „Skalierbarkeit” bezeichnet. Ein wichtiger Aspekt ist zudem die Kombinierbarkeit der Daten: Sie können in ihrer Art unterschiedlich sein, in Beziehung zueinander kann man sie trotzdem setzen. So ist es beispielsweise möglich, Zahlen („Wer hat wie oft geklickt?“) mit Bildern, Videos oder Beiträgen in Social Media zu verknüpfen.

Wesentlich für Big Data ist, dass die verarbeiteten Daten aus verschiedenen Quellen zusammenfließen. 

Image
Image
Netzwerkdiagramm

Welche Quellen werden verwendet?

Wenn Unternehmen große Datenmengen verarbeiten, verbinden sie oft Daten aus dem eigenen Haus (intern) mit Daten von außerhalb (extern).

Interne Daten produziert ein Unternehmen beispielsweise, wenn es Einkäufe seiner Kund*innen in einer Datenbank abspeichert oder mithilfe von Sensoren an verschiedenen Stellen des Produktionsablaufs Daten erhebt. Auch Daten aus Bankgeschäften gehören zu den internen Daten eines Unternehmens.

Externe Daten bezeichnen hingegen allgemeinere Daten, etwa Wetter- und Klimadaten, offizielle Statistiken, Verkehrsdaten, Daten von Immobilienmärkten oder Informationen aus sozialen Medien wie Beiträge über Restaurants, die Hinweise zur Qualität des Essens liefern. Auch die Standortdaten von Mobiltelefonen weltweit sind eine wichtige Datenquelle. 

Image
Image
Grafik Netz zwischen Industrieanlagen, Handys, Flugtickets, sozialen Medien

Aufgabe

Description

Welche Daten sind etablierte Quellen für Big Data? 

Interactive tasks