grundlagen | DaMu-Analytics

Prozessmodelle mit Petri Nets abbilden

In Unternehmen gibt es eine Vielzahl von Prozessen. Diese werden häufig mit speziellen Programmen wie ARIS und Co. abgebildet. Dabei fehlt aber häufig eine Zusammenführung mit den tatsächlichen IST-Daten der Prozesse. Wie man diese Daten und Sichten zusammenführen kann möchte ich, da ich gerade auf der Arbeit genau solch eine Aufgabe vor mir habe, darüber einen kleinen Beitrag mit meinen aktuellen Erkenntnissen dazu schreiben.

Wir werden dabei auf Methoden im Rahmen des Process Minings eingehen. Was Process Mining ist habe ich bereits versucht in einem eigenen Beitrag zu erläutern. Siehe hier.

Was werde ich also explizit erläutern?

Unterschied Discovery zu Conformance
Was brauche ich für Conformance
Was sind Petrinets und wie sind diese aufgebaut?
Wie sieht der aktuelle Use Case für das aktuelle Projekt bei mir aus / Was für Herausforderungen gibt es?

How to: Python Umgebung auf eigenem Rechner einrichten

Python ist eine Programmiersprache, welche sich besonders im Data Science Bereich großer Beliebtheit erfreut. Die Gründe dafür sind vielfältig. Die Sprache ist leicht zu erlernen und man muss sich über viele Dinge wie Speicherverwaltung oder Variablendeklaration keine Gedanken machen. In diesem Beitrag möchte ich euch zeigen wie ihr euch eine Python Umgebung einrichten könnt und neue Librarys installieren könnt.

Python wird anders als viele andere Programmiersprachen, welche vor Ausführung kompiliert werden müssen, zur Laufzeit von einem Interpreter interpretiert. Außerdem ermöglicht Python eine Objektorientierte Programmierung und ist ohne Anpassungen auf vielen verschiedenen Systemen einsetzbar. Inzwischen gibt es für fast jede Problemstellung in Python eine passende Bibliothek, was es gerade für Analysten und Data Scientisten zu einer extrem hilfreichen Programmiersprache macht. Die offizielle Python Webseite ist http://python.org. Weiterlesen

Python – Pandas, Import, Export, DataFrames und Datenmodellierung

Pandas ist eines der besten Packages in Python um Daten in ein Programm zu laden und auch große Mengen lassen sich mithilfe von Pandas aufbereiten und wieder in z.B. Datenbanken zurückschreiben oder mit weiteren Packages zu visualisieren. In Datenanalyse Projekten kommt man also um Pandas, wenn man mit Python arbeitet, gar nicht vorbei. Deshalb möchte ich mit diesem Beitrag einen Überblick über häufig genutzte Funktionen bieten.

Was ist Pandas jetzt eigentlich? Pandas ist ein Package in Python. Der Fokus liegt auf die Datenaufbereitung und Modellierung von Tabellen. Dabei bietet Pandas umfassende Funktionen um aus verschiedenen Quellen die Daten in dein Analyseprojekt zu laden und auch wieder zu exportieren. Außerdem sind die performanten Modellierungsfunktionen ein großer Pluspunkt, die auch die Arbeit mit großen Datenmengen erlauben. Pandas ist quasi aufgesetzt auf das Package Numpy, welches bereits das Konzept von Arrays einführt. Während in Numpy Arras allerdings nur Daten in einem Array mit dem gleichen Datentyp erlaubt, arbeitet Pandas vor allem mit Dataframes. Diese erlauben auch in einem Dataframe unterschiedliche Datentypen, wie z.B. in der ersten Spalte Integer und in der zweiten Spalte Daten vom Typ String etc. Weiterlesen