DaMu-Analytics

Meine Blogübersicht zu Data Science und Digitalisierung

Im Internet gibt es zahlreiche Blogs zu allen Themen. Da ist es manchmal schwierig den Überblick zu behalten. Ich will darum mal ( auch für mich selber) meine aktuellen Top Webseiten zu den Themen Data Science, Prozessmanagement und Digitalisierung zusammenschreiben. Vielleicht hilft es auch den einen oder anderen neue Ideen zu bekommen.

Der Beitrag wird entsprechend auch aufgeteilt in diese Bereiche und ich werde zu den verschiedenen Blogbeiträgen einen kurzen Kommentar geben. Den Anfang machen Blogs zum Thema Data Science.

Weiterlesen

How to: Web Scraping Data mit Beautiful Soup

Eine der wichtigen Aufgaben der Data Science ist es erst einmal an Daten zu kommen die man analysieren kann. Häufig werden einem von Auftraggebern bereits bestehende Daten zur Verfügung gestellt. Es kann aber auch vorkommen, dass erst noch Daten erhoben werden müssen. Eine Möglichkeit wie Daten von Webseiten gesammelt werden können möchte ich euch im folgenden erläutern.

In diesem Beitrag werde ich etwas über das Web Scraping schreiben. Dabei handelt es sich um eine Methode mit der Daten aus den HTML Strukturen von Webseiten extrahiert werden. Vorab gibt es hier aber einige Dinge zu beachten.

  1. Wenn möglich nutzt API’s der Anbieter, da diese genau für die Sammlung von Daten vorgesehen sind
  2. Versichert euch, dass die Daten die ihr sammelt auch für eure Zwecke verwendet werden dürfen (ggf. Fragen)
  3.  Überlastet die Webseite des Anbieters nicht mit euren Anfragen. Gerade wenn man eine komplette Webseite durchsucht und z.B. Dateien runterlädt oder die Unterseiten durchsucht, dann können kleinere Webseiten schnell in die Knie gehen. Außerdem könnte bei zu vielen Datenabfragen in zu kurzer Zeit der Admin auf die Idee kommen, dass ihr ein bösartiger Angreifer seid und eure IP blocken.

Weiterlesen

How to: Python Umgebung auf eigenem Rechner einrichten

Python ist eine Programmiersprache, welche sich besonders im Data Science Bereich großer Beliebtheit erfreut. Die Gründe dafür sind vielfältig. Die Sprache ist leicht zu erlernen und man muss sich über viele Dinge wie Speicherverwaltung oder Variablendeklaration keine Gedanken machen. In diesem Beitrag möchte ich euch zeigen wie ihr euch eine Python Umgebung einrichten könnt und neue Librarys installieren könnt.

Python wird anders als viele andere Programmiersprachen, welche vor Ausführung kompiliert werden müssen, zur Laufzeit von einem Interpreter interpretiert.  Außerdem ermöglicht Python eine Objektorientierte Programmierung und ist ohne Anpassungen auf vielen verschiedenen Systemen einsetzbar. Inzwischen gibt es für fast jede Problemstellung in Python eine passende Bibliothek, was es gerade für Analysten und Data Scientisten zu einer extrem hilfreichen Programmiersprache macht. Die offizielle Python Webseite ist http://python.org. Weiterlesen

WordPress Cookie Plugin von Real Cookie Banner