Data Science Lexikon

Lexikon Data Science

Wenn sie sich intensiver mit Data Science beschäftigen, werden sie mit einer Vielzahl an Schlagworten konfrontiert, von denen wir die wichtigsten hier erläutern.

Big Data

Der Begriff Big Data bezeichnet Datenmengen, welche zu groß, zu komplex, zu schnelllebig oder zu schwach strukturiert sind, um sie mit manuellen und herkömmlichen Methoden der Datenverarbeitung auszuwerten. Big Data wird häufig auch als Sammelbegriff für digitale Technologien verwendet, die zum Sammeln und Auswerten von großen Datenmengen verwendet werden.

Data Lake

Ein Data Lake ist eine Sammlung von Daten, die in ihrem Rohdatenformat gespeichert sind. Ein Data Lake ist in der Regel ein einzelner Speicher aller Unternehmensdaten, die für Aufgaben wie Reporting, Visualisierung, Analysen und Machine Learning verwendet werden. Ein Data Lake kann strukturierte Daten aus relationalen Datenbanken, teilstrukturierte Daten (CSV, XML, JSON), unstrukturierte Daten (E-Mails, Dokumente, PDFs) und binäre Daten (Bilder, Audio, Video) beinhalten.

Deep Learning

Deep Learning bezeichnet die Methode des maschinellen Lernens, die künstliche neuronale Netze mit zahlreichen Zwischenschichten zwischen Eingabe- und Ausgabeschicht einsetzt.

Data Pipeline

Eine Datenpipeline ist eine Anwendung, die Daten in einer Abfolge von verbundenen Verarbeitungsschritten verarbeitet. Datenpipelines können beispielsweise auf die Datenübertragung zwischen Informationssystemen, die Datenanreicherung und die Echtzeitdatenanalyse angewendet werden. In der Regel werden Datenpipelines als Batch-Prozess oder Streaming-Prozess implementiert. Im ersten Fall erfolgt die Ausführung und Verarbeitung von Daten nur dann, wenn der Prozess gestartet wird. Im zweiten Fall wird der Prozess kontinuierlich ausgeführt und die Daten werden verarbeitet, sobald sie der Datenpipeline zur Verfügung stehen.

Data Storytelling

Werden Datenanalysen in ein Szenario oder eine Geschichte eingefügt, dann erreichen die mathematischen Ergebnisse die Zielgruppe besser. Durch die Nutzung von Szenarien, bestehend aus Datenanalyse, Datenvisualisierungen und textuellen Elementen, nennt sich diese Methode Data Storytelling. Ziel dieser Vorgehensweise ist es, dem Empfänger die Bedeutung hinter den Daten klar zu machen und ihn zum Handeln zu motivieren.

Data Wrangling

Data-Wrangling, auch Datenvorbereitung genannt, bezeichnet den Prozess des Auswählens der Rohdaten über deren Strukturierung, Bereinigung, Anreicherung und Validierung bis zur Ausgabe in einem Format, das sich geeignet auswerten lässt.

Künstliche Intelligenz

Künstliche Intelligenz ist ein Teilgebiet der Informatik, die sich mit der Automatisierung intelligenten Verhaltens und dem maschinellen Lernen befasst. Sie beschäftigt sich mit Methoden, die es einem Computer ermöglichen, Aufgaben zu lösen, die Intelligenz erfordern, wenn sie von einem Menschen gelöst werden.

Machine Learning

Maschinelles Lernen meint die Generierung von Wissen aus Erfahrung. Ein künstliches System lernt aus Beispielen und kann diese nach Beendigung der Lernphase verallgemeinern. Dazu bauen Algorithmen beim maschinellen Lernen ein mathematisches Modell auf, das auf Trainingsdaten beruht.

Predictive Analytics

Predictive Analytics verwendet historische Daten, um zukünftige Ereignisse vorherzusagen. Es werden historische Daten verwendet, um ein mathematisches Modell zu erstellen, das wichtige Trends erfasst. Dieses Modell wird dann auf aktuelle Daten angewendet, um vorherzusagen, was als Nächstes passieren wird.

Python

Python ist ein, interpretierte Programmiersprache. Sie hat den Anspruch, einen gut lesbaren, knappen Programmierstil zu fördern. Python unterstützt mehrere Programmierparadigmen, z.B. die objektorientierte, die aspektorientierte und die funktionale Programmierung. Python ist neben R die am meisten verwendete Programmiersprache im Bereich Data Science. Im Vergleich zu R ist Python eine vollwertige Programmiersprache, die universell einsetzbar ist mehr kann als nur Data Science.

R

R ist eine Programmiersprache für statistische Berechnungen und Grafiken. Zahlreiche online bereitgestellte Pakete enthalten zusätzliche Funktionen, um Daten für Fragestellungen aus unterschiedlichen Bereichen zu analysieren. Die Sprache bietet Schnittstellen zu anderen Programmiersprachen und Möglichkeiten zur Integration in verschiedene Softwareanwendungen.