Le Deep Reinforcement Learning (apprentissage profond par renforcement) est une branche du Machine Learning vous permettant d’implémenter des contrôleurs et des systèmes décisionnels pour des systèmes complexes comme les robots ou les véhicules autonomes. Le Deep Reinforcement Learning vous permet d'implémenter des réseaux de neurones profonds pouvant apprendre des comportements complexes en basant leur apprentissage sur des données générées dynamiquement à partir de systèmes simulés ou physiques. Contrairement aux autres techniques de Machine Learning, il n'est pas nécessaire de disposer de jeux de données d'apprentissage prédéfinis, labélisés ou non. Vous n'avez normalement besoin que d'un modèle de simulation qui représente votre environnement.
Avec MATLAB®, Simulink® et Reinforcement Learning Toolbox™ , vous pouvez exécuter l'ensemble du workflow de design et de déploiement d'un système décisionnel. Vous pouvez :
- Vous lancer dans le Deep Reinforcement Learning en vous appuyant sur des exemples de systèmes de contrôle simples, de systèmes autonomes, de robotique et de problèmes de planification
- Évaluer et comparer les algorithmes populaires de Reinforcement Learning, en passant rapidement de l’un à l’autre avec des modifications mineures à apporter au code
- Modéliser l'environnement dans MATLAB ou dans Simulink
- Utiliser des réseaux de neurones profonds pour définir des politiques de Deep Reinforcement Learning complexes basées sur des images, des vidéos et des données de capteurs
- Accélérer l’apprentissage des politiques en exécutant plusieurs simulations en parallèle en utilisant des cœurs en local ou dans le cloud
- Déployer des politiques de Deep Reinforcement Learning sur des dispositifs embarqués
Les agents du Deep Reinforcement Learning
Les agents du Deep Reinforcement Learning comprennent une politique de réseau de neurones profonds qui met en correspondance un état en entrée et une action en sortie, ainsi qu'un algorithme responsable de la mise à jour de cette politique. Deep Q-Network (DQN), Deep Deterministic Policy Gradient (DDPG), Soft Actor Critic (SAC) et Proximal Policy Optimization (PPO) constituent des exemples d'algorithmes largement répandus. L'algorithme met à jour la politique basée sur les observations et les récompenses collectées à partir de l'environnement pour maximiser les récompenses attendues à long terme.
Reinforcement Learning Toolbox vous permet de créer des agents de Deep Reinforcement Learning par programmation ou de manière interactive avec l'application Reinforcement Learning Designer. Choisissez parmi des algorithmes largement répandus prêts à l'emploi ou implémentez votre propre algorithme personnalisé à l'aide des modèles et des exemples disponibles.
En savoir plus
Modéliser l’environnement dans MATLAB et Simulink
L’apprentissage avec des algorithmes de Deep Reinforcement Learning est un processus dynamique au cours duquel l’agent interagit avec son environnement. Pour des applications comme la robotique et les systèmes autonomes, il peut s’avérer coûteux et dangereux de réaliser cet apprentissage avec du véritable hardware. C’est pourquoi, pour le Deep Reinforcement Learning, il est largement préférable de générer des données par simulation via des modèles virtuels représentatifs de l’environnement.
Vous pouvez créer un modèle de votre environnement dans MATLAB et Simulink qui décrit la dynamique du système, l’impact des actions réalisées par l’agent et une récompense qui évalue le bien-fondé de l’action réalisée. Ces modèles peuvent être de nature continue ou discrète et peuvent représenter votre système plus ou moins fidèlement. En outre, vous pouvez paralléliser les simulations pour accélérer l’apprentissage. Dans certains cas, vous serez peut-être en mesure de réutiliser les modèles MATLAB et Simulink existants de votre système pour le Deep Reinforcement Learning avec un minimum de modifications.
En savoir plus

Exemples et applications de référence
Lancez-vous dans le Deep Reinforcement Learning en entraînant des politiques de problèmes simples tels que l’équilibrage d’un pendule inversé, la navigation dans un problème Grid World et le maintien en équilibre d’un pendule inversé sur un chariot. Vous pouvez aussi concevoir des systèmes pour la régulation adaptative de la vitesse et l’alerte de franchissement de ligne pour les véhicules autonomes. Le Deep Reinforcement Learning peut aussi vous être utile dans les applications robotiques comme la planification de trajectoire, ainsi que pour l’apprentissage comportemental comme la locomotion.
