DaMu-Analytics

Unterschiede zwischen Decision Tree, Random Forest und Boosting Algorithmen

Wer sich mit dem Thema Data Science beschäftigt kommt sehr schnell auf Begriffe wie z.B. Decision Tree, Random Forest und verschiedene Boosting Algorithmen ( AdaBoost, lightGBM, XGBoost). Dabei ist oft unklar was das Prinzip hinter diesen Algorithmen ist und worin diese sich unterscheiden. Das möchte ich gerne versuchen in diesem Artikel zu erklären.

Decision Trees sind der Einstieg in Machine Learning Verfahren. Oft beginnt man den Einstieg mit einfachen Methoden wie einer Linearen Regression. Als nächstes werden Decision Trees oder ein Random Forest Algorithmus eingeführt. Allerdings wird häufig nicht erklärt was die Prinzipien hinter diesen Algorithmen sind. Also was ist der Nachteil von Decision Trees gegenüber Random Forest Algorithmen. In dem Artikel werden wir deshalb folgende Fragen beantworten:

  • Was ist ein Decision Tree?
  • Wie grenzen sich baumbasierte Algorithmen von anderen Algorithmen ab?
  • Was bedeutet Bagging oder Boosting?
  • Was ist ein Random Forest Algorithmus?
  • Was ist der XGBoost Algorithmus?

Mehr erfahren

Meine Blogübersicht zu Data Science und Digitalisierung

Im Internet gibt es zahlreiche Blogs zu allen Themen. Da ist es manchmal schwierig den Überblick zu behalten. Ich will darum mal ( auch für mich selber) meine aktuellen Top Webseiten zu den Themen Data Science, Prozessmanagement und Digitalisierung zusammenschreiben. Vielleicht hilft es auch den einen oder anderen neue Ideen zu bekommen.

Der Beitrag wird entsprechend auch aufgeteilt in diese Bereiche und ich werde zu den verschiedenen Blogbeiträgen einen kurzen Kommentar geben. Den Anfang machen Blogs zum Thema Data Science.

Mehr erfahren

Was bedeutet eigentlich Agil?

Seit einigen Jahren hört man es schon. „Wir werden jetzt agil“ oder „Wir bauen jetzt auf eine agile Organisation“. Man fragt sich häufig, was bedeutet das denn jetzt überhaupt? Oder ist es einfach nur wieder ein Buzzword, welches gerade durch die Management Ebenen hallt? Das möchte ich gerne einmal versuchen näher zu betrachten und meine eigenen Gedanken dazu auf das digitale Papier bringen.

Um das Thema zu betrachten müssen wir erst einmal den Begriff Agil definieren. Agil kommt von Agilität und das wiederum bezeichnet, laut Wikipedia, die Fähigkeit einer Organisation flexibel und proaktiv, antizipativ und initiativ auf Veränderungen zu reagieren. Also die Fähigkeit auf sich verändernde Umwelteinflüsse zu reagieren. So etwas könnte dann zum Beispiel auch ein Technologiewandel sein. Firmen die also agiler als andere sind können also besser auf Umweltveränderungen reagieren und haben damit einen Wettbewerbsvorteil, besonders in Zeiten in denen große Veränderungen anstehen wie es aktuell der Fall ist.

Mehr erfahren

SQL Conditional Join – Was ist das und warum sollte ich es vermeiden?

Dieser Post ist entstanden aus einem aktuellen Arbeitsthema von mir. Wir haben bei uns eine HANA Datenbank in der wir verschiedene Daten einspielen, aufbereiten und dann über verschiedene Visualisierungstools darstellen können. Dabei müssen wir Daten aus verschiedenen Tabellen und Views miteinander verbinden. Dabei müssen wir dies nun auch manchmal anhand verschiedener Bedingungen verbinden oder verjoinen. Ein sogenannter Conditional Join. Was das genau ist und wo das Problem dabei ist werde ich in diesem Artikel erläutern.

Also was ist nun ein Conditional Join?

Grundsätzlich kann ich 2 Tabellen in SQL mit einem sogenannten Join über einen Schlüssel verbinden. Dabei gibt es z.B. den Inner Join der nur Tabellenzeilen anzeigt bei denen die Schlüssel in beiden Tabellen übereinstimmen.

Mehr erfahren