Kapitel 2

Erste Schritte mit Machine Learning


Es geht nur selten geradlinig voran

Beim Machine Learning verläuft der Weg vom Start bis zum Ziel nur selten geradlinig – man muss ständig iterieren und mit verschiedenen Ideen und Ansätzen experimentieren. In diesem Abschnitt wird ein systematischer Workflow für das Machine Learning beschrieben, in dem einige wichtige Entscheidungspunkte auf dem Weg dorthin hervorgehoben werden.

In der Praxis können Datensätze unübersichtlich und unvollständig sein und in verschiedenen Formaten vorliegen. Möglicherweise liegen Ihnen einfache numerische Daten vor. Manchmal kombiniert man aber auch mehrere verschiedene Datentypen, z. B. Sensorsignale, Text und Streaming-Bilder von einer Kamera.

Die Auswahl von Merkmalen zum Trainieren eines Objekterkennungsalgorithmus erfordert beispielsweise spezielle Bildverarbeitungskenntnisse. Insofern erfordern verschiedene Datentypen unterschiedliche Ansätze zur Vorverarbeitung.

Die Wahl des richtigen Modells ist ein Balanceakt. Hochflexible Modelle neigen zur Überanpassung von Daten, indem sie geringfügige Variationen modellieren, bei denen es sich um Rauschen handeln könnte. Allerdings können einfache Modelle zu viel voraussetzen. Wie man sieht, muss man immer einen Kompromiss zwischen Modellgeschwindigkeit, Genauigkeit und Komplexität eingehen.

Jeder Machine-Learning-Workflow basiert auf drei Fragen:

  • Mit welcher Art von Daten wird gearbeitet?
  • Welche Erkenntnisse erhofft man sich davon?
  • Wie und wo werden diese Erkenntnisse angewandt?

Anhand der Antworten auf diese Fragen können Sie sich dann für das überwachte oder das nicht überwachte Lernen entscheiden.

Wählen Sie das überwachte Lernen, wenn Sie ein Vorhersagemodell trainieren müssen, z. B. für den zukünftigen Wert einer kontinuierlichen Variablen wie der Temperatur oder eines Aktienkurses, oder ein Klassifizierungsmodell, z. B. zur Identifizierung von Automarken anhand von Webcam-Videomaterial.

Nutzen Sie das nicht überwachte Lernen, wenn Sie Ihre Daten untersuchen und ein Modell trainieren möchten, um eine aussagekräftige interne Repräsentation zu erhalten, z. B. die Aufteilung von Daten in Clustern.

Workflow im Überblick

Laden Sie das vollständige PDF herunter, um die Schritte mithilfe einer App zur Gesundheitsüberwachung zu veranschaulichen. Der gesamte Workflow wird in MATLAB® durchgeführt.

  1. ZUGRIFF und Herunterladen der Daten
  2. VORVERARBEITUNG der Daten
  3. ABLEITUNG von Merkmalen aus den vorverarbeiteten Daten
  4. TRAINIEREN von Modellen mithilfe der in Schritt 3 abgeleiteten Merkmale
  5. ITERATION zur Ermittlung des besten Modells
  6. INTEGRATION des besttrainierten Modells in ein Produktionssystem