Was ist Reinforcement Learning?
3 Dinge, die Sie wissen sollten
3 Dinge, die Sie wissen sollten
Reinforcement Learning ist eine Machine-Learning-Methode, bei der ein Computer-Agent das Durchführen einer Aufgabe durch wiederholtes Ausprobieren in einer Umgebung erlernt. Durch diesen Lernansatz kann der Agent eine Reihe von Entscheidungen treffen, die eine Belohnungsmetrik für die Aufgabe ohne menschliches Eingreifen bzw. ausdrückliche Programmierung zum erfolgreichen Durchführen der Aufgabe maximieren.
Der typische Trainingsmechanismus hinter dem Reinforcement Learning spiegelt viele reale Szenarien wider. Denken Sie beispielsweise an das Erziehen von Haustieren durch positive Verstärkung.
Übertragen auf das Reinforcement Learning besteht das Lernziel in diesem Fall darin, dem Hund (Agent) beizubringen, eine Aufgabe in einer Umgebung durchzuführen, die das Umfeld des Hundes sowie des Trainers umfasst. Zuerst gibt der Hundetrainer einen Befehl oder Auslösereiz, den der Hund beobachtet (Beobachtung). Der Hund reagiert darauf mit einer Aktion. Ist die Aktion dem gewünschten Verhalten nahe, erhält der Hund vom Trainer wahrscheinlich eine Belohnung, beispielsweise ein Leckerli oder Spielzeug. Andernfalls bleibt die Belohnung aus. Zu Beginn der Ausbildung wird der Hund wohl eher zufällig reagieren, z. B. sich auf die Seite legen, wenn der Befehl „Sitz!“ gegeben wird, da er versucht, konkrete Beobachtungen mit Aktionen und Belohnungen zu verknüpfen. Diese Verknüpfung oder Zuordnung zwischen Beobachtungen und Aktionen wird Policy (oder Strategiefunktion) genannt. Aus Sicht des Hundes wäre der Idealfall, er würde richtig auf jeden Auslösereiz reagieren, um möglichst viele Leckerli zu bekommen. Die Bedeutung des Reinforcement-Learning-Training ist es also, die Policy des Hundes so zu verfeinern, dass er die gewünschten Verhaltensweisen erlernt, die eine Belohnung maximieren. Nach Abschluss des Trainings sollte der Hund die Besitzerin beobachten und die entsprechende Aktion ergreifen können – beispielsweise sich hinsetzen, wenn der Befehl „Sitz!“ gegeben wurde, indem er die von ihm entwickelte interne Policy nutzt. Zu diesem Zeitpunkt freut er sich zwar über Leckerli, doch sollten sie rein theoretisch nicht mehr nötig sein.
Denken Sie mit dem Hundetraining-Beispiel vor Augen an die Aufgabe, ein Fahrzeug mithilfe eines automatisierten Fahrsystems einzuparken. Ziel ist es, dem Fahrzeug-Computer (Agent) beizubringen, mit Reinforcement Learning auf dem richtigen Parkplatz einzuparken. Wie im Fall des Hundetrainings ist die Umgebung alles außerhalb des Agenten und könnte die Dynamik des Fahrzeugs, andere Fahrzeuge in der Nähe, Witterungsbedingungen usw. umfassen. Beim Training verwendet der Agent Messwerte von Sensoren wie Kameras, GPS und LiDAR (Beobachtungen), um Lenk-, Brems- und Beschleunigungsbefehle (Aktionen) zu generieren. Um zu lernen, wie die richtigen Aktionen aus den Beobachtungen generiert werden (Policy-Tuning), versucht der Agent wiederholt, das Fahrzeug mithilfe eines Ausprobieren-Prozesses einzuparken. Ein Belohnungssignal kann ausgegeben werden, um die Güte eines Versuchs zu bewerten und den Lernprozess anzuleiten.
Beim Beispiel der Hundeschule erfolgt das Training im Gehirn des Hundes. Beim Beispiel des autonomen Einparkens erfolgt das Training durch einen Trainingsalgorithmus. Der Trainingsalgorithmus ist für das Verfeinern der Policy des Agenten zuständig, und zwar durch die erfassten Sensormesswerte, Aktionen und Belohnungsfunktionen. Nach Abschluss des Trainings sollte der Fahrzeugcomputer ausschließlich mithilfe der verfeinerten Policy und der Sensormesswerte einparken können. Beachten Sie, dass diese beiden Beispiele ein modellfreies Reinforcement Learning sind, da Daten durch das Ausprobieren in der Umgebung generiert werden.
Die Hauptkomponenten des Reinforcement Learning (Policy, Umgebung, Agent, Aktionen, Belohnungsfunktionen und Beobachtungen) sind in einem Framework formalisiert, dem sogenannten Markov-Entscheidungsprozess. Es handelt sich dabei um ein mathematisches Modell zur Entscheidungsfindung in Umgebungen mit Ungewissheit.
Der Kompromiss zwischen Erkundung und Erschließung ist ein kritischer Aspekt des Reinforcement Learning und kann sich stark auf die Lernqualität auswirken. Die Idee dabei ist folgende: Sollte sich der Agent die Umgebung dadurch erschließen, dass er Aktionen mit den meisten Belohnungen auswählt, die er bereits kennt, oder sollte er Aktionen wählen, die noch unbekannte Teile der Umgebung erkunden? Was der Agent auswählt, entscheidet über die Informationen, die er erhält, und daher über die Informationen, aus denen er lernen kann. Zu viel Erkundung, und der Agent kann keine gute Policy konvergieren. Zu viel Erschließung, und der Agent kommt wegen lokaler, suboptimaler Lösungen nicht weiter. Im Allgemeinen ist es sinnvoll, wenn ein Agent zu Beginn des Lernens mehr erkundet, wenn es nicht genug zu erschließende Informationen gibt, und nach und nach den Anteil der Erschließung erhöht.
Deep Reinforcement Learning kombiniert Reinforcement Learning und Deep Learning. Während bei einfacheren Problemen eine Policy in Form einer Lookup-Tabelle genügen kann, ist dieser Ansatz nicht gut auf große oder kontinuierliche Probleme skalierbar. Tiefe neuronale Netze, die mit Deep Reinforcement Learning trainiert werden, können komplexes Verhalten kodieren. Dies ermöglicht einen alternativen Ansatz für Anwendungen, die ansonsten mit traditionelleren Methoden nur schwer oder gar nicht lösbar sind. Zum Beispiel kann ein neuronales Netz beim autonomen Fahren den Fahrer ersetzen und entscheiden, wie das Lenkrad gedreht werden soll, indem es gleichzeitig mehrere Sensoren betrachtet, z. B. Kamera-Frames und LiDAR-Messungen. Ohne neuronale Netze würde das Problem normalerweise in kleinere Teile aufgeschlüsselt, z. B. Merkmale aus Kamera-Frames extrahieren, LiDAR-Messungen filtern, Sensor-Ausgaben zusammenführen und „Fahr“-Entscheidungen basierend auf Sensor-Eingaben treffen. Dies ließe sich leichter mit traditionelleren Policy-Darstellungen lösen, z. B. Lookup-Tabellen oder Polynomenfunktionen.
Der allgemeine Workflow zum Trainieren eines Agenten mithilfe von Reinforcement Learning umfasst folgende Schritte:
Das Trainieren eines Agenten mithilfe von Reinforcement Learning ist ein iterativer Prozess. Entscheidungen und Ergebnisse in späteren Phasen können eine Rückkehr zu einer früheren Phase im Lern-Workflow erforderlich machen. Lässt sich der Trainingsprozess nach einem akzeptablen Zeitaufwand nicht zu einer optimalen Policy konvergieren, müssen Sie unter Umständen zurückgehen und sich die Definition des Problems (Dynamik, Beobachtungen, Aktionen), das Belohnungssignal, die Policy-Architektur und den Algorithmus-Hyperparameter vor einem erneuten Training noch einmal ansehen.
Im Gegensatz zum nicht überwachten und überwachten Machine Learning ist Reinforcement Learning nicht auf einen statischen Datensatz angewiesen, sondern kann in einer dynamischen Umgebung agieren und aus gesammelten Erfahrungen lernen. Datenpunkte oder Erfahrungen können beim Trainieren durch Ausprobieren zwischen der Umgebung und einem Software-Agenten gesammelt werden. Dieser Aspekt des Reinforcement Learning ist wichtig, da so vor dem Training kaum noch Datenerfassung, -aufbereitung und -kennzeichnung erforderlich sind, was sonst beim überwachten und nicht überwachten Lernen anfällt.
Deep Learning umfasst alle drei Arten von Machine Learning. Reinforcement Learning und Deep Learning schließen sich nicht gegenseitig aus. Komplexe Reinforcement-Learning-Probleme sind häufig auf tiefe neuronale Netze und Deep Reinforcement Learning angewiesen.
Reinforcement-Learning-Algorithmen können in verschiedene Kategorien organisiert werden, basierend auf ihren Ansätzen bzgl. Lernen und Entscheidungsfindung.
Es gibt drei wichtige Klassen von Reinforcement-Learning-Algorithmen:
Modellbasiertes Reinforcement Learning erstellt oder verwendet ein Modell der Umgebungsdynamik (Übergangswahrscheinlichkeiten und Belohnungsfunktionen), um Entscheidungen zu planen und zu treffen. Das Wort „planen“ ist hier der Schlüssel: Diese Algorithmen benötigen in der Regel weniger oder keine Interaktionen mit der Umgebung, da sie auf ihr internes Modell zurückgreifen, um zukünftige Zustände zu simulieren. Das interne Modell kann a priori bereitgestellt werden (dann muss der Agent überhaupt nicht mit der Umgebung interagieren) oder durch Daten erlernt werden, die aus Interaktionen mit der tatsächlichen Umgebung gesammelt wurden. Modellbasiertes Reinforcement Learning ist normalerweise stichprobeneffizienter als ein modellfreies, da sich mit dem Modell in kurzer Zeit große Mengen von Trainingsdaten generieren lassen. Je nachdem, ob das interne Modell verfügbar oder erlernt ist, können bei modellbasierten Methoden jedoch viel mehr Datenverarbeitungsressourcen als bei modellfreien erforderlich sein, da sie nicht nur den Basisagenten, sondern auch das Umgebungsmodell trainieren und Trainingsdaten generieren müssen.
Im Gegensatz zu modellbasierten Algorithmen erstellen modellfreie Methoden kein explizites Modell der Umgebung. Stattdessen erlernen sie optimale Aktionen durch direkte Interaktionen mithilfe von Ausprobieren (denken Sie an die Beispiele der Hundeschule und des automatisierten Einparkens aus dem vorherigen Abschnitt). Dieser Ansatz ist einfacher und besser für hoch dimensionale oder unstrukturierte Umgebungen geeignet, obwohl er in der Regel weniger effizient bei der Datennutzung ist. Die meisten modernen Reinforcement-Learning-Algorithmen sind modellfrei.
Beim Online-Reinforcement-Learning interagiert ein Agent beim Lernen aktiv mit der Umgebung – er sammelt Erfahrungen, aktualisiert seine Policy und passt sich laufend an neu ankommende Daten an. Die oben beschriebenen Szenarien mit der Hundeschule und dem automatisierten Einparken sind Beispiele für Online-Reinforcement-Learning.
Im Gegensatz dazu lernt das Offline-(oder Batch-)Reinforcement-Learning ausschließlich aus einem statischen Datensatz aufgezeichneter Erfahrungen (z. B. aus menschlichen Darstellungen oder früheren Policys), ohne weitere Interaktion mit der Umgebung. Offline-Methoden sind unübertroffen, wenn reale Interaktionen kostspielig oder unsicher sind, und können selbst aus zufälligen oder nicht sachkundigen Daten nützliche Informationen ziehen (wobei die Lernqualität unter der aus sachkundigen oder strukturierteren Daten bleibt). In der Praxis ist das Offline-Reinforcement-Learning häufig eine gute Option, um eine Policy vor dem Wechsel zum Online-Reinforcement-Learning vorzutrainieren. Dies ist zwar stichprobenineffizient, erzielt in der Regel aber eine bessere Leistung, da es sich laufend mithilfe neuer Daten anpasst.
On-Policy-Reinforcement-Learning-Algorithmen aktualisieren und evaluieren dieselbe Policy, mit der Trainingsdaten generiert werden. Der Agent erlernt also den Wert der aktuellen Policy basierend auf seinen tatsächlichen Aktionen (z. B. SARSA, PPO, TRPO). Dieser Ansatz führt häufig zu stabileren und zuverlässigen Aktualisierungen, da nicht wie bei Off-Policy-Methoden versucht wird, Unterschiede zwischen Verhaltens- und Ziel-Policys abzustimmen. Da nur eine einzelne Policy gepflegt und aktualisiert wird, sind diese Algorithmen in der Regel auch weniger komplex bei der Datenverarbeitung.
Off-Policy-Methoden (z. B. Q-Learning, DQN) hingegen nutzen Daten, die von einer Policy (der Verhaltens-Policy) gesammelt wurden, um eine andere Ziel-Policy (z. B. eine Greedy- oder optimale Strategie) zu erlernen oder zu verbessern. Daher können sie frühere Erfahrungen (Daten) in einem Wiederholungs-Puffer speichern und mehrmals wiederverwenden. Dies bedeutet eine drastische Verbesserung der Stichprobeneffizienz verglichen mit On-Policy-Methoden, die Daten nach jeder Policy-Aktualisierung verwerfen. Ein weiterer Vorteil von Off-Policy-Methoden ist, dass sie aus beliebigen Policys lernen können, auch zufälligen, veralteten oder sogar von Menschen generierten Daten. Diese Flexibilität ermöglicht das Trainieren aus Offline-Datensätzen oder -Darstellungen.
Gradientenbasierte Algorithmen sind das Allround-Werkzeug für viele moderne Deep-Reinforcement-Learning-Algorithmen, da sie (per Backpropagation) verrauschte Schätzungen des Policy-Gradienten nutzen, um schnelles stichprobeneffizientes Lernen zu ermöglichen. Allerdings sind sie empfindlich gegenüber Hyperparametern, anfällig für lokale Optima und erfordern Differenzierbarkeit.
Evolutionäres Reinforcement Learning dagegen behandelt die Policy als Blackbox und ist ein leistungsstarkes Instrument, wenn die Gradienten nicht verfügbar oder nicht vertrauenswürdig sind, massive parallele Datenverarbeitung möglich oder großflächige Erkundung in rauen Suchräumen erforderlich ist. Evolutionäre Strategien suchen global über populationsbasierte Mutationen und Selektionen – das macht sie robust gegenüber spärlichen oder nicht differenzierbaren Belohnungssignalen, aber auch viel weniger stichprobeneffizient und langsamer beim Konvergieren.
Mit hybriden Techniken können Sie zunehmend das Beste beider Methoden erschließen: Sie nutzen Evolution zur Erkundung und globalen Suche, verfeinern dann vielversprechende Policys mit gradientenbasierter Aktualisierung und erzielen häufig eine insgesamt stärkere Leistung.
Die Art des vorliegenden Problems gibt häufig vor, welcher Algorithmus oder welche Algorithmen angemessen ist oder sind. Sind die Zustands- und Aktionsräume der Umgebung diskret und zahlenmäßig begrenzt, können Sie Policys mit einer einfachen Tabelle darstellen. Q-Learning und SARSA sind Beispiele gängiger tabellarischer Algorithmen. Policy-Parameter in einer Tabelle darzustellen, ist nicht praktikabel, wenn die Anzahl der Zustand/Aktion-Paare groß oder unendlich wird. Dies ist der sogenannte Fluch der Dimensionalität und hier kommen neuronale Netze ins Spiel. Im Allgemeinen sind die meisten modernen Reinforcement-Learning-Algorithmen auf neuronale Netze angewiesen, da sie gute Kandidaten für große Zustands-/Aktionsräume und komplexe Probleme sind.
Beim Einzel-Agent-Reinforcement-Learning interagiert nur ein Agent mit der Umgebung – dadurch wird das Lernen einfacher, stabiler und leichter analysierbar. Im Gegensatz dazu gibt es beim Multi-Agent-Reinforcement-Learning (MARL) mehrere Agenten, die mit derselben Umgebung interagieren. Da die Agenten sich gegenseitig beeinflussen, ist die Umgebung nicht stationär, verletzt Markov-Annahmen und destabilisiert die Lernprozesse. Während MARL komplexere Aufgaben lösen und emergente Verhaltensweisen wie Koordination oder Verhandlung entwickeln kann, wirft es auch Herausforderungen auf, beispielsweise Konvergenzprobleme, Datenverarbeitungsaufwand und Instabilität, wenn jeder Agent unabhängig aktualisiert wird.
Das Reinforcement Learning ist zwar keineswegs ein neues Konzept, doch jüngere Fortschritte bei Deep Learning und Datenverarbeitungsleistung haben bemerkenswerte Ergebnisse im Bereich der künstlichen Intelligenz ermöglicht.
Zu den Vorteilen des Reinforcement Learning zählt Folgendes:
Reinforcement Learning ist eine leistungsstarke Technik mit eigenen Herausforderungen, wie beispielsweise:
Reinforcement Learning wurde in den vergangenen Jahren in mehreren Bereichen eingesetzt, darunter KI-Chatbots und Large Language Models (LLMs), Empfehlungs-Systeme, Marketing und Werbung sowie Gaming. Es wird jedoch (größtenteils) noch für Produktionsanwendungen evaluiert, und das gilt insbesondere für technische Systeme. Andererseits eröffnen die zuvor genannten Vorteile langsam, aber sicher den Einsatz der Technologie in verschiedenen Bereichen. Reale Anwendungen des Reinforcement Learning in technischen Systemen kommen in der Regel aus diesen Bereichen:
MATLAB®, Simulink® und Reinforcement Learning Toolbox™ vereinfachen Reinforcement-Learning-Aufgaben. Sie können Regler und Entscheidungsfindungsalgorithmen implementieren, indem Sie jeden Schritt des Reinforcement-Learning-Workflows im selben Ökosystem durcharbeiten. Insbesondere können Sie Folgendes tun:
Interaktives Erstellen eines Reinforcement-Learning-Agenten mit der Reinforcement Learning Designer-App. (Siehe Dokumentation.)
Interaktives Erstellen eines Reinforcement-Learning-Agenten mit der Reinforcement Learning Designer-App. (Siehe Dokumentation.)
Sie können mit MATLAB und Simulink viele der Herausforderungen bewältigen, die häufig beim Reinforcement Learning auftreten.
Legen Sie zügig mit dem Reinforcement Learning los: Testen Sie vorkonfigurierte Algorithmen (Sie müssen sie also nicht manuell entwickeln), sehen Sie sich Referenzbeispiele an, um Hilfe beim Einrichten Ihres Problems zu erhalten, und vertiefen Sie Ihr Wissen mit kostenfreien Lernressourcen und Schulungskursen.
Mit Parallel Computing Toolbox™ und MATLAB Parallel Server™ können Sie Reinforcement-Learning-Policys schneller trainieren, indem Sie mehrere GPUs, mehrere CPUs, Datenverarbeitungscluster und Cloudressourcen nutzen. Sie können beispielsweise Trainingsdaten schneller generieren, indem Sie mehrere Simulationen parallel abspalten, und auch das Lernen beschleunigen, indem die Gradienten zügiger berechnet werden.
Außerdem kann die Reinforcement Learning Toolbox Funktionen für modellbasiertes Reinforcement Learning bereitstellen, was bei der Stichprobeneffizienz hilft.
Agenten der modellbasierten Policy-Optimierung (MBPO) können stichprobeneffizienter als modellfreie Agenten sein, da das Modell große Mengen unterschiedlicher Erfahrungen generieren kann.
Sie können mit der Reinforcement Learning Toolbox die Anzahl der manuell zu verfeinernden Hyperparameter verringern. Zum Beispiel können Sie Agenten erstellen, ohne manuell die Architektur der Policys des neuronalen Netzes anzugeben. Sie können Agenten-Hyperparameter interaktiv mit Bayesscher Optimierung in der Reinforcement Learning Designer-App verfeinern. Außerdem können Sie automatisch Belohnungsfunktionen generieren, wenn Sie bereits über Spezifikationen für Model Predictive Control Toolbox™ oder Leistungseinschränkungen verfügen, die mit Modellverifikationsblöcken von Simulink Design Optimization™ angegeben werden.
Simulationen sind der Schlüssel zum Reinforcement Learning. Mit enger Integration in Simulink lassen sich Generalisierungen von Policys durch Domänenrandomisierung mittels Trainingsagenten in verschiedenen Szenarien einfach verbessern, selbst für extreme oder gefährliche Bedingungen, die sich in der realen Welt nur schwer oder unter großem Risiko erstellen lassen könnten.
Mithilfe der Reinforcement Learning Toolbox können Sie alle verfügbaren Datenquellen in vollem Umfang erschließen, um die Generalisierung zu verbessern und die sim2real-Lücke zu schließen. Mit Offline-Reinforcement-Learning lässt sich eine Policy mithilfe vorhandener Daten (z. B. Daten von der Ziel-Hardware) vortrainieren. Sie können dann die Policy durch das Trainieren gegen eine simulierte Umgebung verbessern und Domänenrandomisierung anwenden, um sie robust gegen ungewisse Faktoren und Szenarien zu machen. Damit das Simulationsmodell das reale System genau darstellt, können Sie auf Systemidentifikation zurückgreifen. Der letzte Schritt des Prozesse ist das Verfeinern der trainierten Policy, indem sie ggf. direkt gegen die reale Hardware trainiert wird. Auch wenn das Einbeziehen tatsächlicher Hardware in die Trainingsschleife normalerweise riskant und sogar gefährlich wäre, stellen die ersten beiden Schritte dieses Workflows sicher, dass die Anzahl der Interaktionen mit der physischen, zum Verfeinern der Policy erforderlichen Hardware minimal ist. Diese Funktionalität kann auch bei realen Anwendungen eingesetzt werden.
Ein sim2real-Transfer-Workflow mithilfe der Reinforcement Learning Toolbox, die alle Quellen verfügbarer Daten zur besseren Generalisierung erschließt.
Ein sim2real-Transfer-Workflow mithilfe der Reinforcement Learning Toolbox, die alle Quellen verfügbarer Daten zur besseren Generalisierung erschließt.
Reinforcement Learning ist häufig durch „stumme Fehler“ gekennzeichnet – subtile, schwer erkennbare Probleme, die beim Trainieren oder bei der Ausführung auftreten. Mit der Reinforcement Learning Toolbox können Sie wichtige Trainingsdaten zur einfacheren Analyse und Fehlerbehebung aufzeichnen und visualisieren.
Interpretierbarkeit und Verifikation sind noch offene und aktive Bereiche in der Forschungs-Community, insbesondere hinsichtlich neuronaler Netze. Die Deep Learning Toolbox™ bietet eine Reihe von Visualisierungsmethoden – eine Art Interpretierbarkeitstechnik, die Netzvorhersagen mithilfe visueller Darstellungen dessen erläutert, nach dem ein Netz sucht. Ein weiterer Ansatz ist durch Fuzzy-Logik: Ein Fuzzy Inference System (FIS) so zu trainieren, dass es das Verhalten einer (Deep) Reinforcement-Learning-Policy repliziert, ermöglicht Ihnen den Einsatz der FIS-Regeln zum Erklären seines Verhaltens.
Die simulationsbasierte Verifikation ist der gängigste Ansatz zum Verifizieren von Reinforcement-Learning-Policys. Simulink macht sie einfach. Mit Model-Based Design kann die simulationsbasierte Verifikation um traditionelle Verifikation und Validierung erweitert werden. Sie können beispielsweise Anforderungen an Ihre Policy formulieren und mit der Requirements Toolbox™ auf Konsistenz, Vollständigkeit und Richtigkeit analysieren. Darüber hinaus können Sie mithilfe von formalen Methoden der Deep Learning Toolbox Verification Library bestimmte Eigenschaften der Policys des neuronalen Netzes bewerten, z. B. Robustheit und Netzausgabegrenzen.
Als Letztes gilt zu berücksichtigen, dass es bei allen in diesem Abschnitt erörterten Herausforderungen hilfreich sein kann, ein komplexes Problem in kleinere Teilprobleme aufzuschlüsseln: Fehlerbehebung und Interpretierbarkeit lassen sich besser steuern (ein kleineres Problem erfordert in der Regel eine einfachere Policy-Architektur) und auch die Verifikationsanforderungen sinken unter Umständen. In diesen Situationen kann das Reinforcement Learning mit traditionellen (Regelungs-) Methoden kombiniert werden. Die Hauptidee hinter dieser Architektur ist, dass die verifizierbaren oder traditionellen Methoden zur Bewältigung sicherheitskritischer Aspekte des Problems genutzt werden, während Blackbox-Reinforcement-Learning-Policys bei allgemeineren, potenziell weniger kritischen Komponenten zum Einsatz kommen. Andere infrage kommende Architekturen sind ein hybrider Ansatz, bei dem eine traditionelle Methode gemeinsam mit dem Reinforcement Learning ausgeführt wird, oder bei dem das Reinforcement Learning eine traditionelle Methode ergänzt oder berichtigt. Mit MATLAB lassen sich solche Architekturen unkompliziert implementieren. Neben Reinforcement-Learning- und AI-basierten Methoden können Sie auf eine Vielzahl traditioneller, vorkonfigurierter Methoden zugreifen und sie mithilfe einer einzelnen Simulationsplattform, nämlich Simulink, kombinieren.
Erweitern Sie Ihre Kenntnisse durch Dokumentation, Beispiele, Videos und vieles mehr.
Sehen Sie sich weitere Themengebiete an, für die MATLAB- und Simulink-Produkte häufig zum Einsatz kommen.
Website auswählen
Wählen Sie eine Website aus, um übersetzte Inhalte (sofern verfügbar) sowie lokale Veranstaltungen und Angebote anzuzeigen. Auf der Grundlage Ihres Standorts empfehlen wir Ihnen die folgende Auswahl: .
Sie können auch eine Website aus der folgenden Liste auswählen:
So erhalten Sie die bestmögliche Leistung auf der Website
Wählen Sie für die bestmögliche Website-Leistung die Website für China (auf Chinesisch oder Englisch). Andere landesspezifische Websites von MathWorks sind für Besuche von Ihrem Standort aus nicht optimiert.
Amerika
Europa