DaMu-Analytics

Meine Blogübersicht zu Data Science und Digitalisierung

Im Internet gibt es zahlreiche Blogs zu allen Themen. Da ist es manchmal schwierig den Überblick zu behalten. Ich will darum mal ( auch für mich selber) meine aktuellen Top Webseiten zu den Themen Data Science, Prozessmanagement und Digitalisierung zusammenschreiben. Vielleicht hilft es auch den einen oder anderen neue Ideen zu bekommen.

Der Beitrag wird entsprechend auch aufgeteilt in diese Bereiche und ich werde zu den verschiedenen Blogbeiträgen einen kurzen Kommentar geben. Den Anfang machen Blogs zum Thema Data Science.

Mehr erfahren

Was bedeutet eigentlich Agil?

Seit einigen Jahren hört man es schon. „Wir werden jetzt agil“ oder „Wir bauen jetzt auf eine agile Organisation“. Man fragt sich häufig, was bedeutet das denn jetzt überhaupt? Oder ist es einfach nur wieder ein Buzzword, welches gerade durch die Management Ebenen hallt? Das möchte ich gerne einmal versuchen näher zu betrachten und meine eigenen Gedanken dazu auf das digitale Papier bringen.

Um das Thema zu betrachten müssen wir erst einmal den Begriff Agil definieren. Agil kommt von Agilität und das wiederum bezeichnet, laut Wikipedia, die Fähigkeit einer Organisation flexibel und proaktiv, antizipativ und initiativ auf Veränderungen zu reagieren. Also die Fähigkeit auf sich verändernde Umwelteinflüsse zu reagieren. So etwas könnte dann zum Beispiel auch ein Technologiewandel sein. Firmen die also agiler als andere sind können also besser auf Umweltveränderungen reagieren und haben damit einen Wettbewerbsvorteil, besonders in Zeiten in denen große Veränderungen anstehen wie es aktuell der Fall ist.

Mehr erfahren

Mit Pandas-Profiling schnell einen Datenüberblick gewinnen

Jeder kennt es, wenn man mit neuen Datensätzen arbeitet muss sich zu erst ein Überblick über die vorhandenen Datensätze gewonnen werden. Häufig werden dabei verschiedene Tests durchgeführt um den Umfang, die Verteilung der Daten sowie fehlerhafte Datensätze, Null Werte oder auch sogar Korrelationen zwischen Variablen zu entdecken. Häufig übersieht man dabei etwas oder vergisst eine wichtige Info die den weiteren Data Science Prozess aufhält oder sogar zu falschen Annahmen führt. Anfang 2020 bin ich im Rahmen meines Jobs auf die Python Bibliothek „Pandas-Profiling“ aufmerksam geworden, welche dem Data Scientisten viele dieser Aufgaben erleichtert.

In diesem Blogartikel möchte ich diese Bibliothek und die Möglichkeiten etwas näher betrachten. Im ersten Teil möchte ich darauf eingehen, wie man mit der Anaconda Distribution oder dem klassischen PIP Tool die Bibliothe herunterlädt und wie sie genutzt werden kann. Im Zweiten Teil werde ich erklären wie man mit wenigen Zeilen Code eine ausführliche HTML Datei erzeugt, welche Einblicke in den vorliegenden Datensatz ermöglicht.

Also fangen wir an… Mehr erfahren