In diesem Blogbeitrag möchten wir uns mit den möglichen Tools beschäftigen, die für Data Science zum Einsatz kommen. Wir bei OpenAdvice (mittlerweile Teil der TIMETOACT) bevorzugen den Einsatz von Jupyter Notebooks in Kombination mit einer Python Version. Welche Vorteile solche Notebooks haben und wie sie mit ihnen arbeiten können, werden wir in diesem Beitrag aufzeigen.
Über Jupyter Notebooks
Jupyter (eine Mischung aus den drei Programmiersprachen Julia, Python & R) ist ein Open Source Projekt, um das Arbeiten mit diversen Programmiersprachen in einer Umgebung möglichst simpel und anschaulich zu gestalten. Ein riesiger Vorteil ist die Darstellung. Wo andere GUIs (graphische Benutzeroberflächen) viele Möglichkeiten, insbesondere Debugger, liefern und oft erschlagend umfangreich sind, glänzt Jupyter mit Übersichtlichkeit ohne Abstriche in der Funktionalität. Den Grundstock bilden sogenannte Zellen. Hier gibt es die Möglichkeit zwischen Code-Zellen (zum Programmieren) und Markdown-Zellen zu wählen. Man kann dementsprechend seinen Code mit Texten, Bildern und z.B. auch .gif Datein kombinieren. Erzeugte Plots, Karten oder Grafiken werden ebenfalls direkt im Notebook dargestellt. Das leichte Exportieren in verschiedene Formate (.pdf, .html, .py, .tex,…) kreiert so ein vollständiges Dokument. So ist es möglich seine Erkenntnisse direkt auszuformulieren und mit dem Code und Grafiken zusammen zu einer Analyse im PDF Format zu exportieren. Alle Beitrage aus dieser Reihe sind und werden aus demonstrationszwecken ebenfalls ausschließlich mit Jupyter Notebooks erstellt. Gerade im Bereich Data Science, wo es u.a. darum geht mit Daten zu jonglieren, sie zu untersuchen, zu visualisieren und die daraus gezogenen Kenntnisse auszuformulieren, liefern Jupyter Notebooks die perfekte Basis alle Aufgabe mit einem (kostenlosen) Tool zu bewältigen. Die einzelnen Stationen eines typischen Projekts wollen wir kurz anschneiden und erklären.
ETL - Extract Transform Load
Nachdem man sich mit der Materie des Projekt vertraut gemacht hat, ist es essenziell die zugehörigen Daten zu sammeln, diese aufzubereiten und anschließend zur Weiterverarbeitung zu sichern. Dieses Vorgehen nennt man auch ETL-Prozess.
Ein typischer ETL Prozess könnte so aussehen:

Einlesen von Daten
Wir wollen einige Möglichkeiten präsentieren, wie man verschiedene Datenquellen mit Python einlesen kann. Zur Datensicherung und -aufbereitung bietet sich das Package Pandas an. Damit werden eingelesene Daten in DataFrames (Tabellen) gespeichert. Ein mal eingelesen kann man diese beliebig weiterverarbeiten. Das macht das Aufbereiten sehr viel handlicher. Neben der Möglichkeit lokal mit Jupyter Notebooks zu arbeiten, gibt es auch in IBM Cognos Analytics die Möglichkeit mit Notebooks zu arbeiten. Die in IBM Cognos Analytics erstellen Datenmodule, Data Sources und auch hochgeladenen Datein können leicht eingelesen werden. Hierfür gibt es einen integrierten Data Connector (CADataConnector). Auch diese eingelesenen Daten werden in einem DataFrame gespeichert.

Datenverarbeitung
Nachdem wir nun Daten eingelesen haben, können wir mit ihnen arbeiten, sie aufbereiten und auch damit rechnen. Die Pandas library bietet hierfür eine Vielzahl von Möglichkeiten. Wie man Daten in ein Notebook einliest haben wir bereits gesehen. Einige der oben aufgeführten Transformationen wollen wir ihnen vorführen. Viele dieser Verarbeitungsschritte sind sogenannte One-liner, das heißt, sie können in nur einer Zeile Code umgesetzt werden. Wir wollen annehmen, dass wir unsere Daten in einem DataFrame namens “df_Beispiel” eingelesen haben.

Datensicherung
Je nach Anforderung können die Daten direkt in eine Datenbank geschrieben werden, oder lokal in Form einer Datei gesichert werden.

Natürlich ist ein ETL Prozess weitaus komplexer und umfangreicher und je nach Projektziel müssen auch weitere Transformationen passieren. Mit diesem Beitrag sollten sie einen kurzen Einblick erhalten wie ein ETL Prozess aussehen könnte. Im nächsten Beitrag dieser Serie freuen wir uns, ihnen verschiedene Arten von Visualisierungen zu zeigen, um die bearbeiteten Daten zielgerecht präsentieren zu können.
Erfahren Sie mehr

ESG-Tagebuch | Implementierung von Envizi ESG Suite |Teil 1

Microsoft Viva – was bietet die neue Plattform?

Wie IBM FileNet und WatsonX.AI den Arbeitsalltag verändern

ESG-Tagebuch | Nachhaltige Datenlösungen realisieren |Teil 3

Data Lake vs Data Warehouse: Welche Lösung ist die Richtige?

Artificial Intelligence (AI) mit Spurhalteassistent im Griff

Das erwartet Sie beim Software Compliance Audit

Vorteile und Umsetzung eines Single-Point-of-Truths

ESG-Tagebuch | Wissenstransfer & Kommunikation | Teil 2

Lizenzmanagement fest im Griff - Das sollten Sie wissen!

Kleine Einführung ins Thema Softwarelizenzen

AWS Cloud: So optimieren Sie Ihre Kosten mit IBM Turbonomic!

HCL Domino 12 Beta 3 Backup und Restore

Mit End-to-End Testing zur einwandfreien Webanwendung

Wie cloudbasiert digitale Kundenprozesse optimiert werden

Live Share für die reibungslose Kommunikation in VS Code

9 Tipps & Tricks für Angular

Top 10 CSS Tipps & Tricks in 2020

Deno – Das müsst ihr über die Laufzeitumgebung wissen

So können Sie Ihre Infrastruktur automatisieren

Neue Funktion Gruppenräume in Microsoft Teams

Was hat Whisky mit erfolgreichen KI-Projekten zu tun?

HCL Sametime 11 Installation: Einrichten einer Mongo-DB

Support-Update von HCL

Das Domino v12 Betaprogramm ist eröffnet

Microsoft Teams Webinare - das neue Meeting-Format

Notes Client mit Teams für Online-Konferenzen kombinieren

HCL Nomad - HCL-Domino-Anwendungen auf mobilen Geräten

Neue Features für die HCL Webmail-Lösung Verse 2.2

Microsoft Viva - Ein am Menschen ausgerichteter Arbeitsplatz

Neuigkeiten für das Connections-Portfolio

Icinga / Nagios erkennt Domino Tasks nicht immer

10 Gründe für Managed Services mit edcom

Wir haben HCL Sametime Premium v12 getestet

So lösen Sie ein Problem mit Nomad Web, SafeLinx und mySQL

Abkündigung für HCL Domino Notes 9 und 10

Frauenpower in der IT

Die HCL Domino Volt Sandbox ist da

Sichere Web-Konferenzen mit HCL Sametime 11.5

HCL Fix Pack für "creation date"-Anzeige

HCL Notes Domino Version 12 – new template signer

HCL Sametime 11.5 Premium - Patch für persistant chat

HCL Connections 7 Upgrade

Neue Upgrade-Strategie für HCL Connections 7

Immergrüne Microsoft Teams Online Meetings

Microsoft Stream am digitalen Arbeitsplatz

HCL Volt MX - die Cross-Plattform

10 Argumente für eine Migration zu Domino 12

HCL Nomad Web im Verbund mit HCL SafeLinx

In 6 Schritten zur passenden Data Analytics-Lösung

Lizenzbilanz und dann? IT Asset Management weitergedacht

Microsoft Teams bringt Offline-Inhalte ins digitale Meeting

Kanban Arbeitstechnik bei der Bayerischen Staatsoper

HCL Connections 8 ist jetzt verfügbar

Unternehmensprozesse digitalisieren – am besten mit Low-Code

EU-Nachhaltigkeitsrichtlinie (CSRD) – das müssen Sie wissen!

Welches Low-Code-Tool ist das richtige für mein Unternehmen?

Microsoft Azure-Ressourcen automatisch skalieren

Amazon EC2: Performance richtig messen und optimieren!

Elastic Block Storage: Performance und Kosten optimieren

So einfach sparen Sie mit IBM Turbonomic IT-Kosten!

Amazon EC2: Instanz und Preismodell richtig wählen

Azure Cloud: Kosten mit IBM Turbonomic optimieren!

Tipps & Tools für eine erfolgreiche interne Kommunikation

IBM Watson Studio

Zero Trust – oder lassen Sie jeden rein?

IBM SPSS Modeler

Data Science, Artificial Intelligence und Machine Learning

Microsoft Azure

Datengetriebene Prozesse & Geschäftsmodelle

Chromebooks holen auf

Passwort oder Iris-Scan: Die Zukunft der Authentisierung

IBM Cloud Pak for Data

IAM-Prozesse – Betrachtungswinkel und Prozesssichtweisen

Ein Public Cloud Cheat Sheet der führenden Cloud Provider

Automatisierter Testing Prozess mit Power Apps

IBM Cloud Pak for Data – Test-Drive

PIM- oder ERP-first?

Wer benötigt ein Intranet?

Working @ novaCapta: Cristinas Insights

IBM Decision Optimization

Cloud-Strategie nach der Pandemie

Roadmap zu digitalen Produkten

GreenOps: Der Weg zu Transparenz und Effizienz in der Cloud

Cybersecurity Evolution: NIS-2

IT: Schlüssel zum erfolgreichen Nachhaltigkeitsmanagement?!

Die Notwendigkeit einer Web Application Firewall im Internet

Data Integration Service und Consulting für Ihr Unternehmen

CSRD mit grüner Technologie umsetzen

Talend Data Integration

Digitale Sichtbarkeit: Ein MUSS für den Erfolg

DORA: Stärkung der Resilienz im europäischen Finanzwesen

D2C-Potentiale für mehr Wiederholungskäufer ausschöpfen

Knowledge Graphs: vernetzte Daten als Innovationsmotor

Stay productive, stay safe - unsere Homeoffice Tipps für Sie

vdek führt neue Data-Warehouse-Lösung ein

Erkunde hochresiliente Langzeitspeicherung mit Cold Archive

IoT und Edge AI: Technologien für die smarte, morgige Welt

Reporting für das Zugriffsmanagement
