DaMu-Analytics

How to: Web Scraping Data mit Beautiful Soup

Eine der wichtigen Aufgaben der Data Science ist es erst einmal an Daten zu kommen die man analysieren kann. Häufig werden einem von Auftraggebern bereits bestehende Daten zur Verfügung gestellt. Es kann aber auch vorkommen, dass erst noch Daten erhoben werden müssen. Eine Möglichkeit wie Daten von Webseiten gesammelt werden können möchte ich euch im folgenden erläutern.

In diesem Beitrag werde ich etwas über das Web Scraping schreiben. Dabei handelt es sich um eine Methode mit der Daten aus den HTML Strukturen von Webseiten extrahiert werden. Vorab gibt es hier aber einige Dinge zu beachten.

  1. Wenn möglich nutzt API’s der Anbieter, da diese genau für die Sammlung von Daten vorgesehen sind
  2. Versichert euch, dass die Daten die ihr sammelt auch für eure Zwecke verwendet werden dürfen (ggf. Fragen)
  3.  Überlastet die Webseite des Anbieters nicht mit euren Anfragen. Gerade wenn man eine komplette Webseite durchsucht und z.B. Dateien runterlädt oder die Unterseiten durchsucht, dann können kleinere Webseiten schnell in die Knie gehen. Außerdem könnte bei zu vielen Datenabfragen in zu kurzer Zeit der Admin auf die Idee kommen, dass ihr ein bösartiger Angreifer seid und eure IP blocken.

Mehr erfahren

Digitalisierte Prozesse – Wie aus einer PDF ein Arbeitsgewinn wird

Digitalisierung. Das ist ein Wort das in vielen Unternehmen derzeit umgeht. Alle sind sich einig, wir müssen die Digitalisierung in unserem Unternehmen vorantreiben. Aber was bedeutet die Digitalisierung und wie kann ich diese umsetzen?

Viele Unternehmen digitalisieren gerade. Aber irgendwie entwickelt die Digitalisierung häufig nicht die Durchschlagskraft die man erwartet hat. Woran liegt das?
Häufig fängt es bereits bei dem Begriff an. Für viele bedeutet Digitalisierung eventuell eine Mobile App zu erstellen, oder aus Papier Dokumenten werden PDF Dokumente erstellt. Es werden zusätzliche IT-Systeme oder Tools eingeführt, die für sich Informationen schaffen und gesondert ach auswertbar machen. Das Problem aber ist häufig, dass kein großes Gesamtkonzept vorliegt. Es bringt nichts wenn ich eine Mobile Applikation herausbringe die nicht genutzt wird, oder wenn ich statt Papier Dokumenten nun PDF Dokumente ablege. Wenn ich einen schlechten Prozess Digitalisiere habe ich immer noch einen schlechten Prozess. Im Rahmen der Digitalisierung sollte man sich überlegen, was für Technologien gibt es. Was für eine konkrete Zielsetzung habe ich bzw. welches Problem möchte ich lösen. Dann sollte man sich überlegen, wie sieht der aktuelle Prozess aus um dieses Problem zu lösen und gibt es weitere Prozesse die das gleiche oder ähnliche Problem lösen oder zu lösen haben. Mehr erfahren

Projektergebnis: Datenanalyse von Telekommunikationsblogs

In diesem Beitrag möchte ich eine Analyse von Daten, die ich aus RSS Feeds von verschiedenen Telekommunikationsblogs  gesammelt habe vorstellen. Damit möchte ich eine Idee geben wie man Analytics Aufgaben angehen könnte.

In dem Rahmen möchte ich auch verschiedene Punkte bzw. Fragen aufgreifen die sich mir bei der Planung und Durchführung des Analytics-Projekt gestellt haben.

  • Was ist meine Fragestellung/Hypothese gewesen?
  • Wie kann ich hier an Daten kommen und warum habe ich mich für diese Methode entschieden?
  • Wie habe ich die Daten aufbereitet und analysiert?
  • Welche Erkenntnisse habe ich daraus abgeleitet?
  • Was habe ich für zukünftige Projekte daraus gelernt?

Mehr erfahren

Data Lake vs Data Warehouse|Damu-Analytics

Im Bereich der Datensammlung und -bereitstellung wird ein Begriff immer häufiger genannt, der Data Lake. Was ist aber dieser Data Lake und worin unterscheidet er sich von einem klassischen Dataware House? Diese Frage möchte ich gerne in diesem Artikel näher beleuchten, da die Technologie zunehmend die Basis von Advanced Analytics und Data Science bildet.

Der Data Lake. Ein großer See von Daten der über große Datenströme mit immer neuen Daten versorgt wird. Diese Metapher passt ziemlich gut. Aber die Frage die sich häufig stellt, ist was für Vorteile gegenüber einem Datawarehouse habe ich und wie ist ein Data Lake eigentlich aufgebaut? Außerdem wissen Unternehmen häufig nicht genau wie diese Datenmengen gewinnbringend eingesetzt werden können. Darum werden wir uns folgendes anschauen

  • Eine kurze Erklärung des Begriffs
  • Aufbau eines Data Lakes
  • Unterschiede eines Data Lakes vs Data Warehouses
  •  Einsatzmöglichkeiten

Mehr erfahren

Process Mining – einfach erklärt |Damu-Analytics

Process Mining, Data Mining, Text Mining – Die Data Analysten werden zu Minenarbeitern und keiner weiß mehr was das alles eigentlich bedeutet. In diesem Artikel möchte ich euch den Begriff Process Mining erläutern, da er in den letzten Jahren eine wachsende Bedeutung im Unternehmensumfeld erfahren hat und euch häufige Fehler die beim Einsatz gemacht werden beschreiben.

So was ist denn jetzt dieses Process Mining? Im Prinzip leitet es sich vom Begriff Data Mining ab und um Process Mining zu verstehen, sollte man den Begriff Data Mining verstehen. Also fangen wir doch genau dort einmal an. Data Mining setzt sich aus 2 Begriffen zusammen. Data = Daten und Mining = Schürfen. Daraus lässt sich schließen, dass man mit Data Mining versucht Daten zu schürfen also zu gewinnen. Wichtig ist dabei, dass es nicht darum geht Daten zu erschaffen oder zu erfassen, sondern Informationen und Wissen aus den bereits erfassten Daten zu gewinnen. Dabei werden vor allem Methoden angewandt mit denen Daten strukturiert und zusammengefügt werden. Mit verschiedenen Algorithmen, Machine Learning, Text Mining Algorithmen kann der Data Analyst/Scientist dann versuchen Muster und Abhängigkeiten in den Daten zu entdecken und so neue Erkenntnisse aus den Daten zu generieren. Im Verlauf des Datenaufbereitung Prozesses entsteht so eine Datenpipeline die alle Daten durchlaufen und am Ende stehen die Erkenntnisse aus den Daten aufbereitet zur Verfügung. Data Mining ist dabei nur ein Teil dieser Prozesskette, welcher die Muster in den Daten aufdecken soll. Mehr erfahren

How to: Python Umgebung auf eigenem Rechner einrichten

Python ist eine Programmiersprache, welche sich besonders im Data Science Bereich großer Beliebtheit erfreut. Die Gründe dafür sind vielfältig. Die Sprache ist leicht zu erlernen und man muss sich über viele Dinge wie Speicherverwaltung oder Variablendeklaration keine Gedanken machen. In diesem Beitrag möchte ich euch zeigen wie ihr euch eine Python Umgebung einrichten könnt und neue Librarys installieren könnt.

Python wird anders als viele andere Programmiersprachen, welche vor Ausführung kompiliert werden müssen, zur Laufzeit von einem Interpreter interpretiert.  Außerdem ermöglicht Python eine Objektorientierte Programmierung und ist ohne Anpassungen auf vielen verschiedenen Systemen einsetzbar. Inzwischen gibt es für fast jede Problemstellung in Python eine passende Bibliothek, was es gerade für Analysten und Data Scientisten zu einer extrem hilfreichen Programmiersprache macht. Die offizielle Python Webseite ist http://python.org. Mehr erfahren

Python – Pandas, Import, Export, DataFrames und Datenmodellierung

Pandas ist eines der besten Packages in Python um Daten in ein Programm zu laden und auch große Mengen lassen sich mithilfe von Pandas aufbereiten und wieder in z.B. Datenbanken zurückschreiben oder mit weiteren Packages zu visualisieren. In Datenanalyse Projekten kommt man also um Pandas, wenn man mit Python arbeitet, gar nicht vorbei. Deshalb möchte ich mit diesem Beitrag einen Überblick über häufig genutzte Funktionen bieten.

Was ist Pandas jetzt eigentlich? Pandas ist ein Package in Python. Der Fokus liegt auf die Datenaufbereitung und Modellierung von Tabellen. Dabei bietet Pandas umfassende Funktionen um aus verschiedenen Quellen die Daten in dein Analyseprojekt zu laden und auch wieder zu exportieren. Außerdem sind die performanten Modellierungsfunktionen ein großer Pluspunkt, die auch die Arbeit mit großen Datenmengen erlauben. Pandas ist quasi aufgesetzt auf das Package Numpy, welches bereits das Konzept von Arrays einführt. Während in Numpy Arras allerdings nur Daten in einem Array mit dem gleichen Datentyp erlaubt, arbeitet Pandas vor allem mit Dataframes. Diese erlauben auch in einem Dataframe unterschiedliche Datentypen, wie z.B. in der ersten Spalte Integer und in der zweiten Spalte Daten vom Typ String etc. Mehr erfahren

Hallo Welt ! Ein neuer Blog ist geboren.

Es ist so weit. Lange habe ich überlegt ob ich einen Blog erstellen soll und ob ich überhaupt etwas anbieten kann, was für jemanden einen Mehrwert bieten könnte. Da ich mich sehr viel mit Daten Analyse aufgrund meines Jobs beschäftige und ich finde es gibt zwar einige Data Analytics Blogs aber nur wenige in Deutsch und mit konkreten Fragestellungen die mich in letzter Zeit beschäftigt haben, möchte ich auf damu-analytics.com hier meine Erfahrungen teilen.

Darum werde ich auf diesem Blog meine persönlichen Erfahrungen zum Thema Daten Analyse und Machine Learning teilen und gerne auch in Diskussion dazu gehen und Fragen beantworten. Aber auch weitere Themen werde ich behandeln. So habe ich mich auch bereits mit dem Raspberry Pi beschäftigt und einige private Projekte damit realisiert. Ich bin gespannt wie sich das entwickelt mit dem Blog.

Der aktuelle Beitrag ist aber vor allem dazu gedacht einmal das weltberühmte „Hello World“ hinaus zu posaunen und mich bekannt zu machen. Also was gibt es über mich zusagen? Mein Name ist Daniel Müller und ich beschäftige mich jetzt seit einigen Jahren mit dem sammeln, aufbereiten und analysieren von Daten. Ich arbeite bei einem großen deutschen Konzern, bei dem ich auch meine kaufmännische Ausbildung absolviert habe, seit 2019 als Analyst und Data Scientist. In dem Unternehmen bin ich bereits seit dem Jahr 2011 tätig. Mein „Sprachschatz“ umfasst vor allem Sprachen wie C, Java, VBA, Python und SQL. Wobei ein Entwickler mich wahrscheinlich in den genannten Sprachen allemal abhängen kann. Aber als Analyst sollte man ein gewisses Maß an Programmierkenntnissen und auch Interesse daran mitbringen. Darum entsteht ja auch der Blog hier. Vor allem anhand von Python werde ich einige Projekte von mir vorstellen und meine Gedanken dazu erläutern. Vor allem mit dem Thema Textanalyse werde ich mich zu Beginn auseinandersetzen.

Also viel Spaß beim lesen und ich freue mich immer über Feedback und Verbesserungsvorschläge.