DaMu-Analytics
Rekursion

How to: SQL rekursive Abfragen erstellen

Die Frage wie man in SQL rekursive Abfragen erstellen kann kommt zwar nicht besonders häufig vor. Aber vor kurzem hatte ich tatsächlich eine Projektanfrage, genau so etwas zu realisieren. Rekursive Abfragen sind dabei Abfragen die sich selbst wieder aufrufen. Was das genau ist, wozu das verwendet werden kann und ganz wichtig, wie das genau funktioniert werden wir in dem Artikel untersuchen.

Also für diesen Artikel werden wir die folgenden Punkte erklären.

  • Was bedeutet Rekursiv?
  • Wozu kann ich rekursive Funktionen oder Abfragen verwenden?
  • Wie kann ich in SQL eine Rekursive Abfrage erstellen?

Weiterlesen

How to: Texte mit Python analysieren Teil 1

Text Mining. Was ist das? Viele kennen inzwischen diesen Begriff. Es hat was zu tun mit Data Mining. Da sind wir uns sicher. Aber wie genau kann ich Informationen aus einer großen Menge an Texten herauskristallisieren und vor allem, wie kann ich diese Texte evtl. auch in Gruppen einteilen und bestimmen was sie zum Thema haben ohne alle Texte selber lesen zu müssen?

 

Diesen Fragen werden wir uns nun in dem heutigen Beitrag stellen. Am Ende solltet ihr ein Verständnis davon haben:

  • Was Unsupervised & Supervised Algorithmen sind
  • Was das PreProcessing bei Text Mining beinhaltet
  • Welche Python Packages sich dafür besonders eignen

Wie Ihr seht braucht man da evtl. schon etwas Vorwissen zu grundsätzlichen Themen in Python. Also ich werde nicht erklären was Funktionen, Python Packages usw. sind sondern wirklich auf die spezifischen Fragen beim Thema Text Mining eingehen. Wenn ihr die Grundlagen noch braucht lest vorher lieber einen der folgenden Beiträge: Python Umgebung auf eigenem Rechner einrichten oder Pandas, Import/Export und Grundlagen der Datenmodellierung. Dies ist nur der erste Teil von zwei Beiträgen der den theoretischen Kleinkram grundsätzlich erklärt. Die praktischen Beiträge wird es in einem 2. Beitrag geben. Let’s Go

Weiterlesen

Meine Blogübersicht zu Data Science und Digitalisierung

Im Internet gibt es zahlreiche Blogs zu allen Themen. Da ist es manchmal schwierig den Überblick zu behalten. Ich will darum mal ( auch für mich selber) meine aktuellen Top Webseiten zu den Themen Data Science, Prozessmanagement und Digitalisierung zusammenschreiben. Vielleicht hilft es auch den einen oder anderen neue Ideen zu bekommen.

Der Beitrag wird entsprechend auch aufgeteilt in diese Bereiche und ich werde zu den verschiedenen Blogbeiträgen einen kurzen Kommentar geben. Den Anfang machen Blogs zum Thema Data Science.

Weiterlesen

Praxisbeispiel: Webscraping newest Podcasts

In einem vorigen Beitrag habe ich an einem recht konstruiertem Beispiel die Möglichkeiten von Web Scraping mithilfe von dem Python Package „Beautiful Soup“ beschrieben. Siehe dazu hier. Nun möchte ich anhand eines kleinen Projektes von mir, an dem ich gerade privat arbeite, demonstrieren wie der Einsatz dieser Methode euch bei der Automatisierung von Funktionen helfen kann.

Zuerst einmal. Aktuell bin ich dabei, aufgrund der Corona Krise und der damit teilweise einhergehenden Langeweile, mich mit dem Thema Smart Home auseinander zu setzen. Dazu setze ich verschiedene Komponenten ein die ich über meinen Raspberry Pi dann als Steuerzentrale steuern lasse. Wenn das weiter fortgeschritten ist werde ich darüber auch einen eigenen Beitrag verfassen. Aktuell habe ich eine Routine gebaut, die mir morgens das Licht langsam einschaltet (von dunkel zu hell) und dabei dann anfängt Musik zu spielen. Allerdings möchte ich gerne, dass verschiedene Nachrichten Podcasts danach anfangen abzuspielen und ich somit während ich Zähne putze und Dusche quasi nebenbei ein kleines News Update bekomme. Das Problem so eine Funktion gibt es aktuell nicht in meiner Smart Home Zentrale, zumindest habe ich bisher nichts dazu gefunden. Darum musste ich mir selbst eine Lösung überlegen. Weiterlesen

How to: Web Scraping Data mit Beautiful Soup

Eine der wichtigen Aufgaben der Data Science ist es erst einmal an Daten zu kommen die man analysieren kann. Häufig werden einem von Auftraggebern bereits bestehende Daten zur Verfügung gestellt. Es kann aber auch vorkommen, dass erst noch Daten erhoben werden müssen. Eine Möglichkeit wie Daten von Webseiten gesammelt werden können möchte ich euch im folgenden erläutern.

In diesem Beitrag werde ich etwas über das Web Scraping schreiben. Dabei handelt es sich um eine Methode mit der Daten aus den HTML Strukturen von Webseiten extrahiert werden. Vorab gibt es hier aber einige Dinge zu beachten.

  1. Wenn möglich nutzt API’s der Anbieter, da diese genau für die Sammlung von Daten vorgesehen sind
  2. Versichert euch, dass die Daten die ihr sammelt auch für eure Zwecke verwendet werden dürfen (ggf. Fragen)
  3.  Überlastet die Webseite des Anbieters nicht mit euren Anfragen. Gerade wenn man eine komplette Webseite durchsucht und z.B. Dateien runterlädt oder die Unterseiten durchsucht, dann können kleinere Webseiten schnell in die Knie gehen. Außerdem könnte bei zu vielen Datenabfragen in zu kurzer Zeit der Admin auf die Idee kommen, dass ihr ein bösartiger Angreifer seid und eure IP blocken.

Weiterlesen

Projektergebnis: Datenanalyse von Telekommunikationsblogs

In diesem Beitrag möchte ich eine Analyse von Daten, die ich aus RSS Feeds von verschiedenen Telekommunikationsblogs  gesammelt habe vorstellen. Damit möchte ich eine Idee geben wie man Analytics Aufgaben angehen könnte.

In dem Rahmen möchte ich auch verschiedene Punkte bzw. Fragen aufgreifen die sich mir bei der Planung und Durchführung des Analytics-Projekt gestellt haben.

  • Was ist meine Fragestellung/Hypothese gewesen?
  • Wie kann ich hier an Daten kommen und warum habe ich mich für diese Methode entschieden?
  • Wie habe ich die Daten aufbereitet und analysiert?
  • Welche Erkenntnisse habe ich daraus abgeleitet?
  • Was habe ich für zukünftige Projekte daraus gelernt?

Weiterlesen

Data Lake vs Data Warehouse|Damu-Analytics

Im Bereich der Datensammlung und -bereitstellung wird ein Begriff immer häufiger genannt, der Data Lake. Was ist aber dieser Data Lake und worin unterscheidet er sich von einem klassischen Dataware House? Diese Frage möchte ich gerne in diesem Artikel näher beleuchten, da die Technologie zunehmend die Basis von Advanced Analytics und Data Science bildet.

Der Data Lake. Ein großer See von Daten der über große Datenströme mit immer neuen Daten versorgt wird. Diese Metapher passt ziemlich gut. Aber die Frage die sich häufig stellt, ist was für Vorteile gegenüber einem Datawarehouse habe ich und wie ist ein Data Lake eigentlich aufgebaut? Außerdem wissen Unternehmen häufig nicht genau wie diese Datenmengen gewinnbringend eingesetzt werden können. Darum werden wir uns folgendes anschauen

  • Eine kurze Erklärung des Begriffs
  • Aufbau eines Data Lakes
  • Unterschiede eines Data Lakes vs Data Warehouses
  •  Einsatzmöglichkeiten

Weiterlesen

Process Mining – einfach erklärt |Damu-Analytics

Process Mining, Data Mining, Text Mining – Die Data Analysten werden zu Minenarbeitern und keiner weiß mehr was das alles eigentlich bedeutet. In diesem Artikel möchte ich euch den Begriff Process Mining erläutern, da er in den letzten Jahren eine wachsende Bedeutung im Unternehmensumfeld erfahren hat und euch häufige Fehler die beim Einsatz gemacht werden beschreiben.

So was ist denn jetzt dieses Process Mining? Im Prinzip leitet es sich vom Begriff Data Mining ab und um Process Mining zu verstehen, sollte man den Begriff Data Mining verstehen. Also fangen wir doch genau dort einmal an. Data Mining setzt sich aus 2 Begriffen zusammen. Data = Daten und Mining = Schürfen. Daraus lässt sich schließen, dass man mit Data Mining versucht Daten zu schürfen also zu gewinnen. Wichtig ist dabei, dass es nicht darum geht Daten zu erschaffen oder zu erfassen, sondern Informationen und Wissen aus den bereits erfassten Daten zu gewinnen. Dabei werden vor allem Methoden angewandt mit denen Daten strukturiert und zusammengefügt werden. Mit verschiedenen Algorithmen, Machine Learning, Text Mining Algorithmen kann der Data Analyst/Scientist dann versuchen Muster und Abhängigkeiten in den Daten zu entdecken und so neue Erkenntnisse aus den Daten zu generieren. Im Verlauf des Datenaufbereitung Prozesses entsteht so eine Datenpipeline die alle Daten durchlaufen und am Ende stehen die Erkenntnisse aus den Daten aufbereitet zur Verfügung. Data Mining ist dabei nur ein Teil dieser Prozesskette, welcher die Muster in den Daten aufdecken soll. Weiterlesen

How to: Python Umgebung auf eigenem Rechner einrichten

Python ist eine Programmiersprache, welche sich besonders im Data Science Bereich großer Beliebtheit erfreut. Die Gründe dafür sind vielfältig. Die Sprache ist leicht zu erlernen und man muss sich über viele Dinge wie Speicherverwaltung oder Variablendeklaration keine Gedanken machen. In diesem Beitrag möchte ich euch zeigen wie ihr euch eine Python Umgebung einrichten könnt und neue Librarys installieren könnt.

Python wird anders als viele andere Programmiersprachen, welche vor Ausführung kompiliert werden müssen, zur Laufzeit von einem Interpreter interpretiert.  Außerdem ermöglicht Python eine Objektorientierte Programmierung und ist ohne Anpassungen auf vielen verschiedenen Systemen einsetzbar. Inzwischen gibt es für fast jede Problemstellung in Python eine passende Bibliothek, was es gerade für Analysten und Data Scientisten zu einer extrem hilfreichen Programmiersprache macht. Die offizielle Python Webseite ist http://python.org. Weiterlesen

Python – Pandas, Import, Export, DataFrames und Datenmodellierung

Pandas ist eines der besten Packages in Python um Daten in ein Programm zu laden und auch große Mengen lassen sich mithilfe von Pandas aufbereiten und wieder in z.B. Datenbanken zurückschreiben oder mit weiteren Packages zu visualisieren. In Datenanalyse Projekten kommt man also um Pandas, wenn man mit Python arbeitet, gar nicht vorbei. Deshalb möchte ich mit diesem Beitrag einen Überblick über häufig genutzte Funktionen bieten.

Was ist Pandas jetzt eigentlich? Pandas ist ein Package in Python. Der Fokus liegt auf die Datenaufbereitung und Modellierung von Tabellen. Dabei bietet Pandas umfassende Funktionen um aus verschiedenen Quellen die Daten in dein Analyseprojekt zu laden und auch wieder zu exportieren. Außerdem sind die performanten Modellierungsfunktionen ein großer Pluspunkt, die auch die Arbeit mit großen Datenmengen erlauben. Pandas ist quasi aufgesetzt auf das Package Numpy, welches bereits das Konzept von Arrays einführt. Während in Numpy Arras allerdings nur Daten in einem Array mit dem gleichen Datentyp erlaubt, arbeitet Pandas vor allem mit Dataframes. Diese erlauben auch in einem Dataframe unterschiedliche Datentypen, wie z.B. in der ersten Spalte Integer und in der zweiten Spalte Daten vom Typ String etc. Weiterlesen

WordPress Cookie Plugin von Real Cookie Banner