Kapitel 3
Anwendung des nicht überwachten Lernens
Wann ist das nicht überwachte Lernen sinnvoll?
Das nicht überwachte Lernen sollte in Betracht gezogen werden, wenn Sie Ihre Daten untersuchen möchten, aber noch kein bestimmtes Ziel haben oder nicht sicher sind, welche Informationen die Daten enthalten. Zudem ist diese Methode auch eine effektive Methode, um die Größe Ihrer Daten zu reduzieren.
Die meisten Methoden des nicht überwachten Lernens sind eine Form der Clusteranalyse, wie wir in Kapitel 1 gesehen haben.
Bei der Clusteranalyse werden die Daten auf Basis eines bestimmten Maßes an Ähnlichkeit oder gemeinsamen Merkmalen in Gruppen unterteilt. Die Cluster werden so gebildet, dass sich Objekte im selben Cluster stark ähneln und Objekte in verschiedenen Clustern sich deutlich voneinander unterscheiden.
Clustering-Algorithmen lassen sich dabei in zwei große Gruppen einteilen:
- Hard Clustering, bei dem jeder Datenpunkt nur zu einem Cluster gehört.
- Soft Clustering, bei dem jeder Datenpunkt zu mehr als einem Cluster gehören kann. Man kann daher Hard- oder Soft-Clustering-Techniken verwenden, wenn man die möglichen Datengruppierungen bereits kennt.
Falls Sie noch nicht wissen, wie die Daten gruppiert werden können:
- Verwenden Sie selbstorganisierende Feature Maps oder hierarchisches Clustering, um nach möglichen Strukturen in den Daten zu suchen.
- Setzen Sie die Clusterevaluierung ein, um die „beste“ Anzahl von Gruppen für einen bestimmten Clusteralgorithmus zu finden.