DaMu-Analytics

How to: Web Scraping Data mit Beautiful Soup

Eine der wichtigen Aufgaben der Data Science ist es erst einmal an Daten zu kommen die man analysieren kann. Häufig werden einem von Auftraggebern bereits bestehende Daten zur Verfügung gestellt. Es kann aber auch vorkommen, dass erst noch Daten erhoben werden müssen. Eine Möglichkeit wie Daten von Webseiten gesammelt werden können möchte ich euch im folgenden erläutern.

In diesem Beitrag werde ich etwas über das Web Scraping schreiben. Dabei handelt es sich um eine Methode mit der Daten aus den HTML Strukturen von Webseiten extrahiert werden. Vorab gibt es hier aber einige Dinge zu beachten.

  1. Wenn möglich nutzt API’s der Anbieter, da diese genau für die Sammlung von Daten vorgesehen sind
  2. Versichert euch, dass die Daten die ihr sammelt auch für eure Zwecke verwendet werden dürfen (ggf. Fragen)
  3.  Überlastet die Webseite des Anbieters nicht mit euren Anfragen. Gerade wenn man eine komplette Webseite durchsucht und z.B. Dateien runterlädt oder die Unterseiten durchsucht, dann können kleinere Webseiten schnell in die Knie gehen. Außerdem könnte bei zu vielen Datenabfragen in zu kurzer Zeit der Admin auf die Idee kommen, dass ihr ein bösartiger Angreifer seid und eure IP blocken.

Mehr erfahren

Digitalisierte Prozesse – Wie aus einer PDF ein Arbeitsgewinn wird

Digitalisierung. Das ist ein Wort das in vielen Unternehmen derzeit umgeht. Alle sind sich einig, wir müssen die Digitalisierung in unserem Unternehmen vorantreiben. Aber was bedeutet die Digitalisierung und wie kann ich diese umsetzen?

Viele Unternehmen digitalisieren gerade. Aber irgendwie entwickelt die Digitalisierung häufig nicht die Durchschlagskraft die man erwartet hat. Woran liegt das?
Häufig fängt es bereits bei dem Begriff an. Für viele bedeutet Digitalisierung eventuell eine Mobile App zu erstellen, oder aus Papier Dokumenten werden PDF Dokumente erstellt. Es werden zusätzliche IT-Systeme oder Tools eingeführt, die für sich Informationen schaffen und gesondert ach auswertbar machen. Das Problem aber ist häufig, dass kein großes Gesamtkonzept vorliegt. Es bringt nichts wenn ich eine Mobile Applikation herausbringe die nicht genutzt wird, oder wenn ich statt Papier Dokumenten nun PDF Dokumente ablege. Wenn ich einen schlechten Prozess Digitalisiere habe ich immer noch einen schlechten Prozess. Im Rahmen der Digitalisierung sollte man sich überlegen, was für Technologien gibt es. Was für eine konkrete Zielsetzung habe ich bzw. welches Problem möchte ich lösen. Dann sollte man sich überlegen, wie sieht der aktuelle Prozess aus um dieses Problem zu lösen und gibt es weitere Prozesse die das gleiche oder ähnliche Problem lösen oder zu lösen haben. Mehr erfahren