DaMu-Analytics

How to: Texte mit Python analysieren Part 3

Wir beschäftigen uns in diesem Artikel wieder mit den Trump Tweets aus 2019 wie schon in den vorherigen Artikeln. Die sind nun schon deutlich älter. Die gezeigten Prinzipien lassen sich aber auch auf ziemlich alle anderen Datensätze anwenden. Ziel ist es zu analysieren, was für Themen Cluster in den Tweets stattgefunden haben. Ich werde die aufbereiteten Texte mit einfachen statistischen Mitteln für einen Cluster Algorithmus „interpretierbar“ machen und mehrere unterschiedliche Algorithmen miteinander vergleichen.

Es ist nun schon etwas länger her, dass ich einen Blog Beitrag verfasst habe. Es ist halt doch nicht so viel Zeit wie ich gedacht habe, um sich nebenbei mit solchen Themen zu beschäftigen. Aber die Geduld soll belohnt werden. Darum werden wir die Texte nun versuchen zu Clustern und an dem Beispiel 3 spannende Cluster Algorithmen vergleichen. K-Means, DBSCAN und HDBSCAN. Vorab, es gibt nicht den einen perfekten Algorithmus der immer passt. Neben diesen drei Algorithmen gibt es noch viele weitere die ebenso verwendet werden können.

Weiterlesen

How to: Texte mit Python analysieren Teil 2

Im ersten Teil haben wir das theoretische Grundkonzept von Text Mining erläutert. In diesem Teil wollen wir ein paar Dinge praktisch anwenden und uns mal ansehen, wie man so Texte mit Python analysieren kann und das alles an einem konkreten Beispiel aus den Texten herauskristallisieren kann.

Den ersten Teil könnt ihr unter diesem Link finden. Es wird kurz angerissen, was man mit Text Mining machen kann. Welche Machine Learning Verfahren es gibt und wie die grundsätzlichen Pre-Processing Schritte aussehen. Außerdem werden 2 Packages zur Textverarbeitung vorgestellt. In diesem Artikel werden wir nun die folgenden Themen, am Beispiel eines Trump Twitter Datensatzes, behandeln:

  • Erklärung des Datensatzes
  • Erste Untersuchung des  Datensatzes
  • Preprocessing Schritte
  • Gewinnen der ersten Informationen & Erkenntnisse
  • Ausblick auf weitere Analysen

Weiterlesen

Prozessmodelle mit Petri Nets abbilden

In Unternehmen gibt es eine Vielzahl von Prozessen. Diese werden häufig mit speziellen Programmen wie ARIS und Co. abgebildet. Dabei fehlt aber häufig eine Zusammenführung mit den tatsächlichen IST-Daten der Prozesse. Wie man diese Daten und Sichten zusammenführen kann möchte ich, da ich gerade auf der Arbeit genau solch eine Aufgabe vor mir habe, darüber einen kleinen Beitrag mit meinen aktuellen Erkenntnissen dazu schreiben.

Wir werden dabei auf Methoden im Rahmen des Process Minings eingehen. Was Process Mining ist habe ich bereits versucht in einem eigenen Beitrag zu erläutern. Siehe hier.

Was werde ich also explizit erläutern?

  • Unterschied Discovery zu Conformance
  • Was brauche ich für Conformance
  • Was sind Petrinets und wie sind diese aufgebaut?
  • Wie sieht der aktuelle Use Case für das aktuelle Projekt bei mir aus / Was für Herausforderungen gibt es?

Weiterlesen

Projektergebnis: Datenanalyse von Telekommunikationsblogs

In diesem Beitrag möchte ich eine Analyse von Daten, die ich aus RSS Feeds von verschiedenen Telekommunikationsblogs  gesammelt habe vorstellen. Damit möchte ich eine Idee geben wie man Analytics Aufgaben angehen könnte.

In dem Rahmen möchte ich auch verschiedene Punkte bzw. Fragen aufgreifen die sich mir bei der Planung und Durchführung des Analytics-Projekt gestellt haben.

  • Was ist meine Fragestellung/Hypothese gewesen?
  • Wie kann ich hier an Daten kommen und warum habe ich mich für diese Methode entschieden?
  • Wie habe ich die Daten aufbereitet und analysiert?
  • Welche Erkenntnisse habe ich daraus abgeleitet?
  • Was habe ich für zukünftige Projekte daraus gelernt?

Weiterlesen

Process Mining – einfach erklärt |Damu-Analytics

Process Mining, Data Mining, Text Mining – Die Data Analysten werden zu Minenarbeitern und keiner weiß mehr was das alles eigentlich bedeutet. In diesem Artikel möchte ich euch den Begriff Process Mining erläutern, da er in den letzten Jahren eine wachsende Bedeutung im Unternehmensumfeld erfahren hat und euch häufige Fehler die beim Einsatz gemacht werden beschreiben.

So was ist denn jetzt dieses Process Mining? Im Prinzip leitet es sich vom Begriff Data Mining ab und um Process Mining zu verstehen, sollte man den Begriff Data Mining verstehen. Also fangen wir doch genau dort einmal an. Data Mining setzt sich aus 2 Begriffen zusammen. Data = Daten und Mining = Schürfen. Daraus lässt sich schließen, dass man mit Data Mining versucht Daten zu schürfen also zu gewinnen. Wichtig ist dabei, dass es nicht darum geht Daten zu erschaffen oder zu erfassen, sondern Informationen und Wissen aus den bereits erfassten Daten zu gewinnen. Dabei werden vor allem Methoden angewandt mit denen Daten strukturiert und zusammengefügt werden. Mit verschiedenen Algorithmen, Machine Learning, Text Mining Algorithmen kann der Data Analyst/Scientist dann versuchen Muster und Abhängigkeiten in den Daten zu entdecken und so neue Erkenntnisse aus den Daten zu generieren. Im Verlauf des Datenaufbereitung Prozesses entsteht so eine Datenpipeline die alle Daten durchlaufen und am Ende stehen die Erkenntnisse aus den Daten aufbereitet zur Verfügung. Data Mining ist dabei nur ein Teil dieser Prozesskette, welcher die Muster in den Daten aufdecken soll. Weiterlesen

WordPress Cookie Plugin von Real Cookie Banner