Statistische Methoden

Statistische Methoden des Data Science

Data Science bedient sich diverser Methoden aus den Bereichen Statistik und Machine Learning, um Erkenntnisse aus Daten zu gewinnen. Es werden hier die wichtigsten statistischen Methoden des Data Science aufgeführt, um ein Grundverständnis für diese Methoden zu schaffen.

Ausreißer-Erkennung

In der Statistik spricht man von einem Ausreißer, wenn ein Messwert nicht in eine erwartete Messreihe passt oder nicht den Erwartungen entspricht. Die Erwartung wird meistens als Streuungsbereich um den Erwartungswert herum definiert, in dem die meisten Messwerte zu liegen kommen. In der Ausreißer-Erkennung geht es darum, untypische und auffällige Datensätze zu identifizieren. Ein Beispiel ist die Erkennung von betrügerischen Kreditkartentransaktionen in einer großen Menge von Transaktionen.

Clusteranalyse

In der Clusteranalysen geht es um die Entdeckung von Ähnlichkeitsstrukturen in meist großen Datenbeständen. Die so gefundenen Gruppen von ähnlichen Objekten werden als Cluster bezeichnet, die Gruppenzuordnung als Clustering. Die Clusteranalyse ist eine wichtige Disziplin des Data-Mining. Bei der Clusteranalyse ist es das Ziel, neue Gruppen in den Daten zu identifizieren. Man spricht von einem “uninformierten” Verfahren, da es, im Gegensatz zur Klassifikation, nicht auf Klassen-Vorwissen angewiesen ist. Die neuen Gruppen können anschließend zur automatisierten Klassifizierung oder zur Erkennung von Mustern (z.B. in der Bildverarbeitung oder zur Kundensegmentierung) eingesetzt werden.

Klassifikationsverfahren

Klassifikationsverfahren sind Methoden und Kriterien zur Einteilung von Objekten oder Situationen in Gruppen. Bei der Klassifikation geht es wie bei der Clusteranalyse darum, Objekte Gruppen zuzuordnen. Im Gegensatz zur Clusteranalyse sind in der Regel die Gruppen vordefiniert. Klassifikationsverfahren spielen unter anderem bei der Mustererkennung eine wichtige Rolle.

Regressionsanalyse

Regressionsanalysen sind statistische Analyseverfahren, mit denen man berechnen kann, ob eine oder mehrere unabhängige Variable eine abhängige Variable beeinflussen. Dabei wird berechnet wie stark der Zusammenhang zwischen diesen Variablen ist. Regressionsanalysen werden verwendet, um Zusammenhänge in Daten zu beschreiben und zu analysieren. Andererseits lassen sich mit Regressionsanalysen auch Vorhersagen treffen. Für Prognosen werden die Zusammenhänge in den Daten als Grundlage verwendet. Es werden folgende Arten von Regressionsanalysen unterschieden:

  • Einfache Regression
    Zur Erklärung der abhängigen Variable wird nur eine erklärende Variable verwendet.
  • Multiple Regression
    Mehrere erklärende Variablen stehen mit einer abhängigen Variable in Beziehung.
  • Lineare Regression
    Zwischen mehreren erklärenden und mehreren abhängigen Variablen besteht ein linearer Zusammenhang.
  • Nicht lineare Regression
    Wenn keine linearen Zusammenhänge zwischen abhängigen und unabhängigen Variablen bestehen, wird von nicht linearer Regression gesprochen. Die Modelle können sehr komplex sein.

Assoziationsanalyse

In der Assoziationsanalyse werden Zusammenhänge in den Datensätzen gesucht und meist als Schlussregeln formuliert. Diese Assoziationsregeln beschreiben Korrelationen zwischen gemeinsam auftretenden Dingen. Der Zweck einer Assoziationsanalyse besteht also darin, Elemente zu ermitteln, die das Auftreten anderer Elemente innerhalb einer Transaktion implizieren. Eine solcherart aufgedeckte Beziehung zwischen zwei oder mehr Elementen kann dann als Wenn-Dann-Regel dargestellt werden. Ein typisches Anwendungsfeld sind die Zusammenhänge beim Einkauf, die sogenannte Warenkorbanalyse, um gezielte Werbemaßnahmen abzuleiten. Ein Beispiel: Bei 80 Prozent der Einkäufe, in denen Bier gekauft wird, werden auch Kartoffelchips gekauft.