Exploration d'arbres appliquée à l'optimisation ...
Type de document :
Thèse
Titre :
Exploration d'arbres appliquée à l'optimisation et à la prise de décision
Titre en anglais :
Tree search applied to optimization and planning
Auteur(s) :
Grill, Jean-Bastien [Auteur]
Université de Lille, Sciences et Technologies
Sequential Learning [SEQUEL]
Université de Lille, Sciences et Technologies
Sequential Learning [SEQUEL]
Directeur(s) de thèse :
Rémi Munos
Michal Valko
Michal Valko
Date de soutenance :
2019-12-19
Président du jury :
Aurélien Garivier (Président & Rapporteur)
Matthieu Geist (Rapporteur)
Alexandra Carpentier (Examinatrice)
Rémi Munos (CoDirecteur de thèse)
Michal Valko (CoDirecteur de thèse)
Matthieu Geist (Rapporteur)
Alexandra Carpentier (Examinatrice)
Rémi Munos (CoDirecteur de thèse)
Michal Valko (CoDirecteur de thèse)
Membre(s) du jury :
Aurélien Garivier (Président & Rapporteur)
Matthieu Geist (Rapporteur)
Alexandra Carpentier (Examinatrice)
Rémi Munos (CoDirecteur de thèse)
Michal Valko (CoDirecteur de thèse)
Matthieu Geist (Rapporteur)
Alexandra Carpentier (Examinatrice)
Rémi Munos (CoDirecteur de thèse)
Michal Valko (CoDirecteur de thèse)
Organisme de délivrance :
Lille 1
École doctorale :
Ecole doctorale Science pour l'Ingénieur Lille Nord de France
Mot(s)-clé(s) :
Optimisation
arbre
processus de markov décisionnels
mouvement brownien
bandits
arbre
processus de markov décisionnels
mouvement brownien
bandits
Mot(s)-clé(s) en anglais :
Optimization
Tree Search
Markov Decision Process (MDP)
Brownian motion
Bandit
Tree Search
Markov Decision Process (MDP)
Brownian motion
Bandit
Discipline(s) HAL :
Informatique [cs]
Mathématiques [math]
Mathématiques [math]
Résumé :
Cette thèse se concentre sur deux problèmes bien étudiés : l'optimisation et la planification. L'optimisation fait référence au problème consistant à trouver la valeur pour laquelle une fonction donnée est maximisée. La ...
Lire la suite >Cette thèse se concentre sur deux problèmes bien étudiés : l'optimisation et la planification. L'optimisation fait référence au problème consistant à trouver la valeur pour laquelle une fonction donnée est maximisée. La planification consiste à décider quelles actions entreprendre dans le contexte d'un problème de prise de décision séquentielle. Ces deux problèmes sont similaires dans la mesure où ils impliquent la maximisation d'une gratification définie de manière externe. Un problème d'optimisation peut être reformulé en un problème de recherche arborescente en représentant l'espace d'entrée de la fonction objective comme un arbre. De même, un problème de planification peut naturellement être exprimé comme un problème de recherche arborescente. Nous tenterons donc de résoudre ces deux problèmes par recherche arborescente. La difficulté de cette recherche réside dans la taille typique de l'arbre, seule une infime fraction pouvant être explorée. Notre objectif est donc de choisir quelle partie explorer (ou non) compte tenu des parties déjà visitées de l'arbre afin de résoudre notre problème initial, qu'il s'agisse de planification ou d'optimisation.Dans la première partie, nous nous concentrons sur l'optimisation pour deux classes différentes de fonctions. Tout d'abord, les fonctions Lipschitz qui sont une classe de fonctions lisses par rapport à une métrique, nous montrons comment toute fonction de cette classe peut être optimisée avec peu de connaissances préalables. Ensuite, un processus gaussien particulier : le mouvement brownien, que nous montrons peut être optimisé en temps sub-polynomial. Dans la deuxième partie, nous nous concentrons sur la planification et présentons une borne polynomiale sur la complexité d'échantillonnage pour une classe particulière de processus décisionnels de Markov (MDP) dans le cadre général de l'apprentissage par renforcement. Nous examinerons également le cas régularisé par entropie pour lequel nous fournirons un algorithme qui, pour tout MDP, bénéficie d'une borne de complexité simple polynomiale.Lire moins >
Lire la suite >Cette thèse se concentre sur deux problèmes bien étudiés : l'optimisation et la planification. L'optimisation fait référence au problème consistant à trouver la valeur pour laquelle une fonction donnée est maximisée. La planification consiste à décider quelles actions entreprendre dans le contexte d'un problème de prise de décision séquentielle. Ces deux problèmes sont similaires dans la mesure où ils impliquent la maximisation d'une gratification définie de manière externe. Un problème d'optimisation peut être reformulé en un problème de recherche arborescente en représentant l'espace d'entrée de la fonction objective comme un arbre. De même, un problème de planification peut naturellement être exprimé comme un problème de recherche arborescente. Nous tenterons donc de résoudre ces deux problèmes par recherche arborescente. La difficulté de cette recherche réside dans la taille typique de l'arbre, seule une infime fraction pouvant être explorée. Notre objectif est donc de choisir quelle partie explorer (ou non) compte tenu des parties déjà visitées de l'arbre afin de résoudre notre problème initial, qu'il s'agisse de planification ou d'optimisation.Dans la première partie, nous nous concentrons sur l'optimisation pour deux classes différentes de fonctions. Tout d'abord, les fonctions Lipschitz qui sont une classe de fonctions lisses par rapport à une métrique, nous montrons comment toute fonction de cette classe peut être optimisée avec peu de connaissances préalables. Ensuite, un processus gaussien particulier : le mouvement brownien, que nous montrons peut être optimisé en temps sub-polynomial. Dans la deuxième partie, nous nous concentrons sur la planification et présentons une borne polynomiale sur la complexité d'échantillonnage pour une classe particulière de processus décisionnels de Markov (MDP) dans le cadre général de l'apprentissage par renforcement. Nous examinerons également le cas régularisé par entropie pour lequel nous fournirons un algorithme qui, pour tout MDP, bénéficie d'une borne de complexité simple polynomiale.Lire moins >
Résumé en anglais : [en]
This thesis is focusing on two well studied problems: optimization andplanning. Optimization refers to the problem of finding the value for whicha given function is maximized. Planning consists in deciding what actionsto ...
Lire la suite >This thesis is focusing on two well studied problems: optimization andplanning. Optimization refers to the problem of finding the value for whicha given function is maximized. Planning consists in deciding what actionsto make in the context of a sequential decision making problem. Both problems are similar in the way they involve maximizing an externally definedgratification.An optimization problem can be reformulated to a tree search problemby representing the input space of the objective function as a tree. Similarlya planning problem can naturally be expressed as a tree search problem.Therefore we will try to tackle both problems by tree search. The difficultyof this search lies in the typical size of the tree for which only a tiny fractioncan be explored. Our goal is therefore to choose which part to explore(or not) given already visited part of the tree in order to solve our initialproblem, whether planning or optimization.In the first part we focus on optimization for two different class of function. First Lipschitz functions which are a class of function smooth withrespect to a metric, we show how any function of this class can be optimizedwith little prior knowledge. Then a particular Gaussian Process: the Brownian Motion which we show can be optimized in sub polynomial time. Inthe second part we focus on planning and exhibit a polynomial bound onthe sample complexity for a particular class of Markov decisions processes(MDP) in the general reinforcement learning setting. We will also considerthe entropy regularized case for which we will provide an algorithm whichfor any MDPs enjoys a polynomial simple complexity bound.Lire moins >
Lire la suite >This thesis is focusing on two well studied problems: optimization andplanning. Optimization refers to the problem of finding the value for whicha given function is maximized. Planning consists in deciding what actionsto make in the context of a sequential decision making problem. Both problems are similar in the way they involve maximizing an externally definedgratification.An optimization problem can be reformulated to a tree search problemby representing the input space of the objective function as a tree. Similarlya planning problem can naturally be expressed as a tree search problem.Therefore we will try to tackle both problems by tree search. The difficultyof this search lies in the typical size of the tree for which only a tiny fractioncan be explored. Our goal is therefore to choose which part to explore(or not) given already visited part of the tree in order to solve our initialproblem, whether planning or optimization.In the first part we focus on optimization for two different class of function. First Lipschitz functions which are a class of function smooth withrespect to a metric, we show how any function of this class can be optimizedwith little prior knowledge. Then a particular Gaussian Process: the Brownian Motion which we show can be optimized in sub polynomial time. Inthe second part we focus on planning and exhibit a polynomial bound onthe sample complexity for a particular class of Markov decisions processes(MDP) in the general reinforcement learning setting. We will also considerthe entropy regularized case for which we will provide an algorithm whichfor any MDPs enjoys a polynomial simple complexity bound.Lire moins >
Langue :
Anglais
Collections :
Source :