How to: Texte mit Python analysieren Part 3

Wir beschäftigen uns in diesem Artikel wieder mit den Trump Tweets aus 2019 wie schon in den vorherigen Artikeln. Die sind nun schon deutlich älter. Die gezeigten Prinzipien lassen sich aber auch auf ziemlich alle anderen Datensätze anwenden. Ziel ist es zu analysieren, was für Themen Cluster in den Tweets stattgefunden haben. Ich werde die aufbereiteten Texte mit einfachen statistischen Mitteln für einen Cluster Algorithmus „interpretierbar“ machen und mehrere unterschiedliche Algorithmen miteinander vergleichen.

Es ist nun schon etwas länger her, dass ich einen Blog Beitrag verfasst habe. Es ist halt doch nicht so viel Zeit wie ich gedacht habe, um sich nebenbei mit solchen Themen zu beschäftigen. Aber die Geduld soll belohnt werden. Darum werden wir die Texte nun versuchen zu Clustern und an dem Beispiel 3 spannende Cluster Algorithmen vergleichen. K-Means, DBSCAN und HDBSCAN. Vorab, es gibt nicht den einen perfekten Algorithmus der immer passt. Neben diesen drei Algorithmen gibt es noch viele weitere die ebenso verwendet werden können.

Mehr erfahren