Learning HJB Viscosity Solutions with PINNs ...
Document type :
Rapport de recherche
Title :
Learning HJB Viscosity Solutions with PINNs for Continuous-Time Reinforcement Learning
Author(s) :
Shilova, Alena [Auteur]
Scool [Scool]
Delliaux, Thomas [Auteur]
Scool [Scool]
Preux, Philippe [Auteur]
Scool [Scool]
Raffin, Bruno [Auteur]
Data Aware Large Scale Computing [DATAMOVE ]
Scool [Scool]
Delliaux, Thomas [Auteur]
Scool [Scool]
Preux, Philippe [Auteur]
Scool [Scool]
Raffin, Bruno [Auteur]
Data Aware Large Scale Computing [DATAMOVE ]
Institution :
Inria Lille - Nord Europe, CRIStAL - Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189
Univ. Lille, CNRS, Centrale Lille, Inria UMR 9189 - CRIStAL,INRIA Lille Nord Europe, Villeneuve d’Ascq, France
Univ. Grenoble Alps, CNRS, Inria, Grenoble INP, LIG, 38000 Grenoble, France
Univ. Lille, CNRS, Centrale Lille, Inria UMR 9189 - CRIStAL,INRIA Lille Nord Europe, Villeneuve d’Ascq, France
Univ. Grenoble Alps, CNRS, Inria, Grenoble INP, LIG, 38000 Grenoble, France
Publication date :
2024-02-07
Keyword(s) :
réseaux de neurones basés sur la physique
solutions de viscosité
apprentissage par renforcement en temps continu
contrôle optimal
solutions de viscosité
apprentissage par renforcement en temps continu
contrôle optimal
English keyword(s) :
physics-informed neural networks
viscosity solutions
continuous time reinforcement learning
optimal control
viscosity solutions
continuous time reinforcement learning
optimal control
HAL domain(s) :
Informatique [cs]
French abstract :
Malgré les progrès récents en matière d’apprentissage par renforcement (RL), les processus décisionnels de Markov ne constituent pas toujours le meilleur choix pour modéliser dessystèmes dynamiques complexes nécessitant ...
Show more >Malgré les progrès récents en matière d’apprentissage par renforcement (RL), les processus décisionnels de Markov ne constituent pas toujours le meilleur choix pour modéliser dessystèmes dynamiques complexes nécessitant des interactions à haute fréquence. Étant capablede travailler avec des intervalles de temps arbitraires, l’apprentissage par renforcement en temps continu (CTRL) est plus adapté à ces problèmes. Au lieu de l’équation de Bellman fonctionnant en temps discret, c’est l’équation de Hamilton-Jacobi-Bellman (HJB) qui décrit l’évolution de la fonction valeur dans CTRL. Même si la fonction valeur est une solution de l’équation HJB, elle n’en est peut-être pas l’unique solution. Pour distinguer la fonction valeur des autres solutions, il est important de rechercher les solutions de viscosité de l’équation HJB. Les solutions de viscosité constituent une classe particulière de solutions possédant des propriétés uniques et de stabilité. Cet article propose une nouvelle approche pour approximer la fonction de valeur en entraînant un réseau neuronal informé par la physique (PINN) à travers un processus itératif de -scheduling contraignant le PINN à converger vers la solution de viscosité et montre des résultats expérimentaux avec tâches de contrôle classiques, dans lesquelles les PINN surpassent les algorithmes RL populaires dans un contexte de temps presque continu.Show less >
Show more >Malgré les progrès récents en matière d’apprentissage par renforcement (RL), les processus décisionnels de Markov ne constituent pas toujours le meilleur choix pour modéliser dessystèmes dynamiques complexes nécessitant des interactions à haute fréquence. Étant capablede travailler avec des intervalles de temps arbitraires, l’apprentissage par renforcement en temps continu (CTRL) est plus adapté à ces problèmes. Au lieu de l’équation de Bellman fonctionnant en temps discret, c’est l’équation de Hamilton-Jacobi-Bellman (HJB) qui décrit l’évolution de la fonction valeur dans CTRL. Même si la fonction valeur est une solution de l’équation HJB, elle n’en est peut-être pas l’unique solution. Pour distinguer la fonction valeur des autres solutions, il est important de rechercher les solutions de viscosité de l’équation HJB. Les solutions de viscosité constituent une classe particulière de solutions possédant des propriétés uniques et de stabilité. Cet article propose une nouvelle approche pour approximer la fonction de valeur en entraînant un réseau neuronal informé par la physique (PINN) à travers un processus itératif de -scheduling contraignant le PINN à converger vers la solution de viscosité et montre des résultats expérimentaux avec tâches de contrôle classiques, dans lesquelles les PINN surpassent les algorithmes RL populaires dans un contexte de temps presque continu.Show less >
English abstract : [en]
Despite recent advances in Reinforcement Learning (RL), the Markov Decision Processes are not always the best choice to model complex dynamical systems requiring interactions at high frequency. Being able to work with ...
Show more >Despite recent advances in Reinforcement Learning (RL), the Markov Decision Processes are not always the best choice to model complex dynamical systems requiring interactions at high frequency. Being able to work with arbitrary time intervals, Continuous Time Reinforcement Learning (CTRL) is more suitable for those problems. Instead of the Bellman equation operating in discrete time, it is the Hamilton-Jacobi-Bellman (HJB) equation that describes value function evolution in CTRL. Even though the value function is a solution of the HJB equation, it may not be its unique solution. To distinguish the value function from other solutions, it is important to look for the viscosity solutions of the HJB equation. The viscosity solutions constitute a special class of solutions that possess uniqueness and stability properties. This paper proposes a novel approach to approximate the value function by training a physics informed neural network (PINN) through a specific ε-scheduling iterative process constraining the PINN to converge towards the viscosity solution and shows experimental results with classical control tasks, where PINNs outperform popular RL algorithms in a nearly continuous-time setting.Show less >
Show more >Despite recent advances in Reinforcement Learning (RL), the Markov Decision Processes are not always the best choice to model complex dynamical systems requiring interactions at high frequency. Being able to work with arbitrary time intervals, Continuous Time Reinforcement Learning (CTRL) is more suitable for those problems. Instead of the Bellman equation operating in discrete time, it is the Hamilton-Jacobi-Bellman (HJB) equation that describes value function evolution in CTRL. Even though the value function is a solution of the HJB equation, it may not be its unique solution. To distinguish the value function from other solutions, it is important to look for the viscosity solutions of the HJB equation. The viscosity solutions constitute a special class of solutions that possess uniqueness and stability properties. This paper proposes a novel approach to approximate the value function by training a physics informed neural network (PINN) through a specific ε-scheduling iterative process constraining the PINN to converge towards the viscosity solution and shows experimental results with classical control tasks, where PINNs outperform popular RL algorithms in a nearly continuous-time setting.Show less >
Language :
Anglais
Collections :
Source :
Files
- document
- Open access
- Access the document
- RR-9541.pdf
- Open access
- Access the document