DaMu-Analytics

How to: Web Scraping Data mit Beautiful Soup

Eine der wichtigen Aufgaben der Data Science ist es erst einmal an Daten zu kommen die man analysieren kann. Häufig werden einem von Auftraggebern bereits bestehende Daten zur Verfügung gestellt. Es kann aber auch vorkommen, dass erst noch Daten erhoben werden müssen. Eine Möglichkeit wie Daten von Webseiten gesammelt werden können möchte ich euch im folgenden erläutern.

In diesem Beitrag werde ich etwas über das Web Scraping schreiben. Dabei handelt es sich um eine Methode mit der Daten aus den HTML Strukturen von Webseiten extrahiert werden. Vorab gibt es hier aber einige Dinge zu beachten.

  1. Wenn möglich nutzt API’s der Anbieter, da diese genau für die Sammlung von Daten vorgesehen sind
  2. Versichert euch, dass die Daten die ihr sammelt auch für eure Zwecke verwendet werden dürfen (ggf. Fragen)
  3.  Überlastet die Webseite des Anbieters nicht mit euren Anfragen. Gerade wenn man eine komplette Webseite durchsucht und z.B. Dateien runterlädt oder die Unterseiten durchsucht, dann können kleinere Webseiten schnell in die Knie gehen. Außerdem könnte bei zu vielen Datenabfragen in zu kurzer Zeit der Admin auf die Idee kommen, dass ihr ein bösartiger Angreifer seid und eure IP blocken.

Mehr erfahren

Projektergebnis: Datenanalyse von Telekommunikationsblogs

In diesem Beitrag möchte ich eine Analyse von Daten, die ich aus RSS Feeds von verschiedenen Telekommunikationsblogs  gesammelt habe vorstellen. Damit möchte ich eine Idee geben wie man Analytics Aufgaben angehen könnte.

In dem Rahmen möchte ich auch verschiedene Punkte bzw. Fragen aufgreifen die sich mir bei der Planung und Durchführung des Analytics-Projekt gestellt haben.

  • Was ist meine Fragestellung/Hypothese gewesen?
  • Wie kann ich hier an Daten kommen und warum habe ich mich für diese Methode entschieden?
  • Wie habe ich die Daten aufbereitet und analysiert?
  • Welche Erkenntnisse habe ich daraus abgeleitet?
  • Was habe ich für zukünftige Projekte daraus gelernt?

Mehr erfahren

Process Mining – einfach erklärt |Damu-Analytics

Process Mining, Data Mining, Text Mining – Die Data Analysten werden zu Minenarbeitern und keiner weiß mehr was das alles eigentlich bedeutet. In diesem Artikel möchte ich euch den Begriff Process Mining erläutern, da er in den letzten Jahren eine wachsende Bedeutung im Unternehmensumfeld erfahren hat und euch häufige Fehler die beim Einsatz gemacht werden beschreiben.

So was ist denn jetzt dieses Process Mining? Im Prinzip leitet es sich vom Begriff Data Mining ab und um Process Mining zu verstehen, sollte man den Begriff Data Mining verstehen. Also fangen wir doch genau dort einmal an. Data Mining setzt sich aus 2 Begriffen zusammen. Data = Daten und Mining = Schürfen. Daraus lässt sich schließen, dass man mit Data Mining versucht Daten zu schürfen also zu gewinnen. Wichtig ist dabei, dass es nicht darum geht Daten zu erschaffen oder zu erfassen, sondern Informationen und Wissen aus den bereits erfassten Daten zu gewinnen. Dabei werden vor allem Methoden angewandt mit denen Daten strukturiert und zusammengefügt werden. Mit verschiedenen Algorithmen, Machine Learning, Text Mining Algorithmen kann der Data Analyst/Scientist dann versuchen Muster und Abhängigkeiten in den Daten zu entdecken und so neue Erkenntnisse aus den Daten zu generieren. Im Verlauf des Datenaufbereitung Prozesses entsteht so eine Datenpipeline die alle Daten durchlaufen und am Ende stehen die Erkenntnisse aus den Daten aufbereitet zur Verfügung. Data Mining ist dabei nur ein Teil dieser Prozesskette, welcher die Muster in den Daten aufdecken soll. Mehr erfahren

WordPress Cookie Plugin von Real Cookie Banner