Kapitel 1
Einführung in Machine Learning
Mehr Daten, mehr Fragen, bessere Antworten
Mit Algorithmen des Machine Learning lassen sich natürliche Muster in Daten aufspüren, die Erkenntnisse liefern und Ihnen helfen, bessere und fundiertere Entscheidungen und Vorhersagen zu treffen. Tagtäglich kommen sie zum Einsatz, um maßgebliche Entscheidungen in der medizinischen Diagnostik, im Aktienhandel, bei der Vorhersage von Energielasten und vielem mehr zu treffen. So vertrauen Medienangebote auf das Machine Learning, um Millionen von Optionen zu durchforsten und Ihnen Musik- oder Filmempfehlungen zu präsentieren. Einzelhandelsunternehmen verschaffen sich damit Einblicke in das Kaufverhalten ihrer Kunden.
Automobil-, Fahrzeug- und Fertigungsindustrie, zur vorausschauenden Instandhaltung
Computational Finance, zur Kreditbewertung und Algorithmisches Trading
Bildverarbeitung und Computer Vision zur Gesichts- und Objekterkennung
Computational Biology, zur Tumorerkennung, Arzneimittelentdeckung und DNA-Sequenzierung
Energieerzeugung, für Preis- und Lastprognosen
Verarbeitung natürlicher Sprache
Praktische Anwendungen:
Funktionsweise des Machine Learning
Beim Machine Learning kommen zwei unterschiedliche Techniken zum Einsatz: das überwachte Lernen, bei dem ein Modell anhand bekannter Eingabe- und Ausgabedaten trainiert wird, damit es künftige Ergebnisse vorhersagen kann, und das nicht überwachte Lernen, bei dem nach versteckten Mustern oder intrinsischen Strukturen in den Eingabedaten gesucht wird.
Klassifizierungstechniken ermöglichen die Vorhersage diskreter Reaktionen – etwa ob eine E-Mail authentisch oder Spam ist oder ob ein Tumor bösartig oder gutartig ist. Dabei ordnen Klassifizierungsmodelle die Eingabedaten verschiedenen Kategorien zu. Zu den häufigsten Anwendungsmöglichkeiten gehören beispielsweise die medizinische Bildgebung, Spracherkennung und Bonitätsprüfungen.
Regressionsverfahren sagen kontinuierliche Reaktionen voraus, z. B. Temperaturänderungen oder Schwankungen des Strombedarfs. Zu den gängigsten Anwendungen zählen hier die Stromlastprognosen und das Algorithmische Trading.
Beim nicht überwachten Lernen werden versteckte Muster oder intrinsische Strukturen in Daten ermittelt. Diese Methode wird verwendet, um Rückschlüsse aus Datensätzen zu ziehen, die aus Eingabedaten ohne gekennzeichnete Ergebnisse bestehen.
Das Clustering ist dabei die am weitesten verbreitete Technik zum nicht überwachten Lernen. Es wird für die explorative Datenanalyse eingesetzt, mit der versteckte Muster oder Gruppierungen in den Daten gefunden werden können.
Zu den Cluster-Anwendungen gehören die beispielsweise die Gensequenzanalyse, die Marktforschung und die Objekterkennung.
Wie entscheidet man sich für einen Algorithmus?
Die Wahl des richtigen Algorithmus kann auf den ersten Blick kompliziert erscheinen – es gibt Dutzende von überwachten und nicht überwachten Algorithmen zum Machine Learning und jeder verfolgt einen anderen Lernansatz. Eine Patentlösung gibt es leider nicht. Die Suche nach dem richtigen Algorithmus ist zum Teil eine Herausforderung, die nur durch Ausprobieren zu bewältigen ist – selbst sehr erfahrene Datenwissenschaftler können nicht pauschal sagen, ob ein Algorithmus funktioniert, ohne ihn vorher auszuprobieren. Die Wahl des Algorithmus hängt aber auch von der Größe und Art der verwendeten Daten ab, von den Erkenntnissen, die Sie aus den Daten gewinnen wollen, und der geplanten Nutzung dieser Erkenntnisse.
Wann empfiehlt sich der Einsatz von Machine Learning?
Ziehen Sie den Einsatz von Machine Learning in Betracht, wenn Sie eine komplexe Aufgabe oder ein Problem mit großen Datenmengen und vielen Variablen lösen müssen, aber keine geeignete Formel oder Gleichung vorliegt. Das Machine Learning ist zum Beispiel eine geeignete Lösung, wenn Sie solche Situationen angehen müssen.
Selbst geschriebene Regeln und Gleichungen sind zu komplex – wie bei der Gesichts- und Spracherkennung.
Die Daten ändern sich permanent, und das Programm muss sich entsprechend anpassen – wie beispielsweise beim automatischen Handel, bei der Vorhersage des Energiebedarfs und bei der Prognose von Einkaufstrends.
Die Regeln einer Aufgabe ändern sich ständig – etwa bei der Betrugserkennung anhand von Transaktionsdaten.