Einführung in Data Science

Data Science

Data Science ist eine interdisziplinäre Wissenschaft, die Erkenntnisse aus strukturierten und unstrukturierten Daten gewinnt. Sie setzt sich aus drei Themenfeldern zusammen:

  • Informatik,
  • Statistik sowie
  • Expertise in dem Anwendungsfeld

Daten liegen in Unternehmen meist fragmentiert und in Silos vor. Sie sind auf verschiedene Abteilungen verteilt oder an Funktionen gekoppelt. Ziel einer Data Science Strategie ist es, einen Prozess zu implementieren, der verschiedenste Datenquellen und -formate verarbeiten und in eine strukturierte und auswertbare Form überführen kann. Die Realisierung von Self Service Szenarien ist wichtig, um im Unternehmen eine datenanalytische Kultur zu etablieren.

Personen, die im Bereich Data Science arbeiten, werden als Data Scientist bezeichnet. Die Aufgabe eines Data Scientist ist es, aus großen Datenmengen Informationen zu generieren und Handlungsempfehlungen abzuleiten. Dazu nutzt er Analysetools und entwickelt Abfragen, die aus unübersichtlichen Datenmengen wertvolle Informationen herauskristallisieren. Anschließend werden Hypothesen abgeleitet, welche statistisch überprüft und für Entscheidungen aufbereitet werden.

In Data Science Projekten hat sich ein iteratives Vorgehen bewährt, das sich an dem Vorgehensmodell CRISP-DM (CRoss-Industry Standard Process for Data Mining) orientiert. CRISP-DM besteht aus sechs Phasen, wobei man sich diese Phasen nicht als einmaligen, sequentiellen Ablauf vorstellen sollte. Häufig muss zwischen den Phasen hin- und her gewechselt werden. Die sechs Phasen sind:

  • Fachliches Verständnis
    Festlegung der Ziele und Anforderungen; Ableitung der konkreten Aufgabenstellung und der groben Vorgehensweise
  • Verständnis der Daten
    Datensammlung bzw. erste Sichtung der zur Verfügung stehenden Daten; Ermittlung möglicher Probleme mit der Datenqualität
  • Datenvorbereitung
    Konstruktion des finalen Datensatzes für die Modellierung
  • Modellierung
    Anwendung geeigneter Data Mining-Verfahren (z.B. Regressionsanalyse, Assoziationsanalyse, Klassifikationsanalyse), Optimierung der Parameter; gewöhnlich Ermittlung mehrerer Modelle
  • Evaluierung
    Auswahl des Modells, das die Aufgabenstellung am besten erfüllt; sorgfältiger Abgleich mit der Aufgabenstellung
  • Bereitstellung
    Aufbereitung und Präsentation der Ergebnisse; evtl. Integration des Modells in einen Entscheidungsprozess des Auftraggebers

Die Modelle sind auf Veränderungen der Nutzungsvoraussetzungen zu überwachen, da sich Situationen und Strukturen ändern können, sodass die Gültigkeit von Ergebnissen nicht mehr gewährleistet ist. Eine Anpassung ist dann notwendig.