DaMu-Analytics

Prozessmodelle mit Petri Nets abbilden

In Unternehmen gibt es eine Vielzahl von Prozessen. Diese werden häufig mit speziellen Programmen wie ARIS und Co. abgebildet. Dabei fehlt aber häufig eine Zusammenführung mit den tatsächlichen IST-Daten der Prozesse. Wie man diese Daten und Sichten zusammenführen kann möchte ich, da ich gerade auf der Arbeit genau solch eine Aufgabe vor mir habe, darüber einen kleinen Beitrag mit meinen aktuellen Erkenntnissen dazu schreiben.

Wir werden dabei auf Methoden im Rahmen des Process Minings eingehen. Was Process Mining ist habe ich bereits versucht in einem eigenen Beitrag zu erläutern. Siehe hier.

Was werde ich also explizit erläutern?

  • Unterschied Discovery zu Conformance
  • Was brauche ich für Conformance
  • Was sind Petrinets und wie sind diese aufgebaut?
  • Wie sieht der aktuelle Use Case für das aktuelle Projekt bei mir aus / Was für Herausforderungen gibt es?

Weiterlesen

Mit Pandas-Profiling schnell einen Datenüberblick gewinnen

Jeder kennt es, wenn man mit neuen Datensätzen arbeitet muss sich zu erst ein Überblick über die vorhandenen Datensätze gewonnen werden. Häufig werden dabei verschiedene Tests durchgeführt um den Umfang, die Verteilung der Daten sowie fehlerhafte Datensätze, Null Werte oder auch sogar Korrelationen zwischen Variablen zu entdecken. Häufig übersieht man dabei etwas oder vergisst eine wichtige Info die den weiteren Data Science Prozess aufhält oder sogar zu falschen Annahmen führt. Anfang 2020 bin ich im Rahmen meines Jobs auf die Python Bibliothek „Pandas-Profiling“ aufmerksam geworden, welche dem Data Scientisten viele dieser Aufgaben erleichtert.

In diesem Blogartikel möchte ich diese Bibliothek und die Möglichkeiten etwas näher betrachten. Im ersten Teil möchte ich darauf eingehen, wie man mit der Anaconda Distribution oder dem klassischen PIP Tool die Bibliothe herunterlädt und wie sie genutzt werden kann. Im Zweiten Teil werde ich erklären wie man mit wenigen Zeilen Code eine ausführliche HTML Datei erzeugt, welche Einblicke in den vorliegenden Datensatz ermöglicht.

Also fangen wir an… Weiterlesen

Praxisbeispiel: Webscraping newest Podcasts

In einem vorigen Beitrag habe ich an einem recht konstruiertem Beispiel die Möglichkeiten von Web Scraping mithilfe von dem Python Package „Beautiful Soup“ beschrieben. Siehe dazu hier. Nun möchte ich anhand eines kleinen Projektes von mir, an dem ich gerade privat arbeite, demonstrieren wie der Einsatz dieser Methode euch bei der Automatisierung von Funktionen helfen kann.

Zuerst einmal. Aktuell bin ich dabei, aufgrund der Corona Krise und der damit teilweise einhergehenden Langeweile, mich mit dem Thema Smart Home auseinander zu setzen. Dazu setze ich verschiedene Komponenten ein die ich über meinen Raspberry Pi dann als Steuerzentrale steuern lasse. Wenn das weiter fortgeschritten ist werde ich darüber auch einen eigenen Beitrag verfassen. Aktuell habe ich eine Routine gebaut, die mir morgens das Licht langsam einschaltet (von dunkel zu hell) und dabei dann anfängt Musik zu spielen. Allerdings möchte ich gerne, dass verschiedene Nachrichten Podcasts danach anfangen abzuspielen und ich somit während ich Zähne putze und Dusche quasi nebenbei ein kleines News Update bekomme. Das Problem so eine Funktion gibt es aktuell nicht in meiner Smart Home Zentrale, zumindest habe ich bisher nichts dazu gefunden. Darum musste ich mir selbst eine Lösung überlegen. Weiterlesen

Data Lake vs Data Warehouse|Damu-Analytics

Im Bereich der Datensammlung und -bereitstellung wird ein Begriff immer häufiger genannt, der Data Lake. Was ist aber dieser Data Lake und worin unterscheidet er sich von einem klassischen Dataware House? Diese Frage möchte ich gerne in diesem Artikel näher beleuchten, da die Technologie zunehmend die Basis von Advanced Analytics und Data Science bildet.

Der Data Lake. Ein großer See von Daten der über große Datenströme mit immer neuen Daten versorgt wird. Diese Metapher passt ziemlich gut. Aber die Frage die sich häufig stellt, ist was für Vorteile gegenüber einem Datawarehouse habe ich und wie ist ein Data Lake eigentlich aufgebaut? Außerdem wissen Unternehmen häufig nicht genau wie diese Datenmengen gewinnbringend eingesetzt werden können. Darum werden wir uns folgendes anschauen

  • Eine kurze Erklärung des Begriffs
  • Aufbau eines Data Lakes
  • Unterschiede eines Data Lakes vs Data Warehouses
  •  Einsatzmöglichkeiten

Weiterlesen

Process Mining – einfach erklärt |Damu-Analytics

Process Mining, Data Mining, Text Mining – Die Data Analysten werden zu Minenarbeitern und keiner weiß mehr was das alles eigentlich bedeutet. In diesem Artikel möchte ich euch den Begriff Process Mining erläutern, da er in den letzten Jahren eine wachsende Bedeutung im Unternehmensumfeld erfahren hat und euch häufige Fehler die beim Einsatz gemacht werden beschreiben.

So was ist denn jetzt dieses Process Mining? Im Prinzip leitet es sich vom Begriff Data Mining ab und um Process Mining zu verstehen, sollte man den Begriff Data Mining verstehen. Also fangen wir doch genau dort einmal an. Data Mining setzt sich aus 2 Begriffen zusammen. Data = Daten und Mining = Schürfen. Daraus lässt sich schließen, dass man mit Data Mining versucht Daten zu schürfen also zu gewinnen. Wichtig ist dabei, dass es nicht darum geht Daten zu erschaffen oder zu erfassen, sondern Informationen und Wissen aus den bereits erfassten Daten zu gewinnen. Dabei werden vor allem Methoden angewandt mit denen Daten strukturiert und zusammengefügt werden. Mit verschiedenen Algorithmen, Machine Learning, Text Mining Algorithmen kann der Data Analyst/Scientist dann versuchen Muster und Abhängigkeiten in den Daten zu entdecken und so neue Erkenntnisse aus den Daten zu generieren. Im Verlauf des Datenaufbereitung Prozesses entsteht so eine Datenpipeline die alle Daten durchlaufen und am Ende stehen die Erkenntnisse aus den Daten aufbereitet zur Verfügung. Data Mining ist dabei nur ein Teil dieser Prozesskette, welcher die Muster in den Daten aufdecken soll. Weiterlesen

Python – Pandas, Import, Export, DataFrames und Datenmodellierung

Pandas ist eines der besten Packages in Python um Daten in ein Programm zu laden und auch große Mengen lassen sich mithilfe von Pandas aufbereiten und wieder in z.B. Datenbanken zurückschreiben oder mit weiteren Packages zu visualisieren. In Datenanalyse Projekten kommt man also um Pandas, wenn man mit Python arbeitet, gar nicht vorbei. Deshalb möchte ich mit diesem Beitrag einen Überblick über häufig genutzte Funktionen bieten.

Was ist Pandas jetzt eigentlich? Pandas ist ein Package in Python. Der Fokus liegt auf die Datenaufbereitung und Modellierung von Tabellen. Dabei bietet Pandas umfassende Funktionen um aus verschiedenen Quellen die Daten in dein Analyseprojekt zu laden und auch wieder zu exportieren. Außerdem sind die performanten Modellierungsfunktionen ein großer Pluspunkt, die auch die Arbeit mit großen Datenmengen erlauben. Pandas ist quasi aufgesetzt auf das Package Numpy, welches bereits das Konzept von Arrays einführt. Während in Numpy Arras allerdings nur Daten in einem Array mit dem gleichen Datentyp erlaubt, arbeitet Pandas vor allem mit Dataframes. Diese erlauben auch in einem Dataframe unterschiedliche Datentypen, wie z.B. in der ersten Spalte Integer und in der zweiten Spalte Daten vom Typ String etc. Weiterlesen

Hallo Welt ! Ein neuer Blog ist geboren.

Es ist so weit. Lange habe ich überlegt ob ich einen Blog erstellen soll und ob ich überhaupt etwas anbieten kann, was für jemanden einen Mehrwert bieten könnte. Da ich mich sehr viel mit Daten Analyse aufgrund meines Jobs beschäftige und ich finde es gibt zwar einige Data Analytics Blogs aber nur wenige in Deutsch und mit konkreten Fragestellungen die mich in letzter Zeit beschäftigt haben, möchte ich auf damu-analytics.com hier meine Erfahrungen teilen.

Darum werde ich auf diesem Blog meine persönlichen Erfahrungen zum Thema Daten Analyse und Machine Learning teilen und gerne auch in Diskussion dazu gehen und Fragen beantworten. Aber auch weitere Themen werde ich behandeln. So habe ich mich auch bereits mit dem Raspberry Pi beschäftigt und einige private Projekte damit realisiert. Ich bin gespannt wie sich das entwickelt mit dem Blog.

Der aktuelle Beitrag ist aber vor allem dazu gedacht einmal das weltberühmte „Hello World“ hinaus zu posaunen und mich bekannt zu machen. Also was gibt es über mich zusagen? Mein Name ist Daniel Müller und ich beschäftige mich jetzt seit einigen Jahren mit dem sammeln, aufbereiten und analysieren von Daten. Ich arbeite bei einem großen deutschen Konzern, bei dem ich auch meine kaufmännische Ausbildung absolviert habe, seit 2019 als Analyst und Data Scientist. In dem Unternehmen bin ich bereits seit dem Jahr 2011 tätig. Mein „Sprachschatz“ umfasst vor allem Sprachen wie C, Java, VBA, Python und SQL. Wobei ein Entwickler mich wahrscheinlich in den genannten Sprachen allemal abhängen kann. Aber als Analyst sollte man ein gewisses Maß an Programmierkenntnissen und auch Interesse daran mitbringen. Darum entsteht ja auch der Blog hier. Vor allem anhand von Python werde ich einige Projekte von mir vorstellen und meine Gedanken dazu erläutern. Vor allem mit dem Thema Textanalyse werde ich mich zu Beginn auseinandersetzen.

Also viel Spaß beim lesen und ich freue mich immer über Feedback und Verbesserungsvorschläge.

WordPress Cookie Plugin von Real Cookie Banner