APPRENTISSAGE SÉQUENTIEL : Bandits, ...
Document type :
Thèse
Title :
APPRENTISSAGE SÉQUENTIEL : Bandits, Statistique et Renforcement.
Author(s) :
Maillard, Odalric Ambrym [Auteur]
Laboratoire d'Informatique Fondamentale de Lille [LIFL]
Sequential Learning [SEQUEL]
Laboratoire d'Informatique Fondamentale de Lille [LIFL]
Sequential Learning [SEQUEL]
Thesis director(s) :
Rémi Munos
Defence date :
2011-10-03
Jury president :
Philippe Berthet Université Toulouse III Co-directeur
Olivier Cappé Telecom ParisTech Président
Nicolò Cesa-Bianchi Università di Milano Rapporteur
Pascal Massart Université de Paris-Sud Examinateur
Rémi Munos INRIA Lille - Nord Europe Directeur
Csaba Szepesvári University of Alberta Rapporteur
Olivier Cappé Telecom ParisTech Président
Nicolò Cesa-Bianchi Università di Milano Rapporteur
Pascal Massart Université de Paris-Sud Examinateur
Rémi Munos INRIA Lille - Nord Europe Directeur
Csaba Szepesvári University of Alberta Rapporteur
Jury member(s) :
Philippe Berthet Université Toulouse III Co-directeur
Olivier Cappé Telecom ParisTech Président
Nicolò Cesa-Bianchi Università di Milano Rapporteur
Pascal Massart Université de Paris-Sud Examinateur
Rémi Munos INRIA Lille - Nord Europe Directeur
Csaba Szepesvári University of Alberta Rapporteur
Olivier Cappé Telecom ParisTech Président
Nicolò Cesa-Bianchi Università di Milano Rapporteur
Pascal Massart Université de Paris-Sud Examinateur
Rémi Munos INRIA Lille - Nord Europe Directeur
Csaba Szepesvári University of Alberta Rapporteur
Accredited body :
Université des Sciences et Technologie de Lille - Lille I
Doctoral school :
Ecole Doctoral Science pour l'Ingénieur
Keyword(s) :
problème du bandit adversarial
bornes de performance
projections aléatoires
algorithme KL-UCB
bornes de performance
projections aléatoires
algorithme KL-UCB
English keyword(s) :
adversarial bandit problem
performance bound
random projections
KL-UCB algorithm
performance bound
random projections
KL-UCB algorithm
HAL domain(s) :
Informatique [cs]/Apprentissage [cs.LG]
French abstract :
Cette thèse traite des domaines suivant en Apprentissage Automatique: la théorie des Bandits, l'Apprentissage statistique et l'Apprentissage par renforcement. Son fil rouge est l'étude de plusieurs notions d'adaptation, ...
Show more >Cette thèse traite des domaines suivant en Apprentissage Automatique: la théorie des Bandits, l'Apprentissage statistique et l'Apprentissage par renforcement. Son fil rouge est l'étude de plusieurs notions d'adaptation, d'un point de vue non asymptotique : à un environnement ou à un adversaire dans la partie I, à la structure d'un signal dans la partie II, à la structure de récompenses ou à un modèle des états du monde dans la partie III. Tout d'abord nous dérivons une analyse non asymptotique d'un algorithme de bandit à plusieurs bras utilisant la divergence de Kullback-Leibler. Celle-ci permet d'atteindre, dans le cas de distributions à support fini, la borne inférieure de performance asymptotique dépendante des distributions de probabilité connue pour ce problème. Puis, pour un bandit avec un adversaire possiblement adaptatif, nous introduisons des modèles dépendants de l'histoire et traduisant une possible faiblesse de l'adversaire et montrons comment en tirer parti pour concevoir des algorithmes adaptatifs à cette faiblesse. Nous contribuons au problème de la régression en montrant l'utilité des projections aléatoires, à la fois sur le plan théorique et pratique, lorsque l'espace d'hypothèses considéré est de dimension grande, voire infinie. Nous utilisons également des opérateurs d'échantillonnage aléatoires dans le cadre de la reconstruction parcimonieuse lorsque la base est loin d'être orthogonale. Enfin, nous combinons la partie I et II : pour fournir une analyse non-asymptotique d'algorithmes d'apprentissage par renforcement; puis, en amont du cadre des Processus Décisionnel de Markov, pour discuter du problème pratique du choix d'un bon modèle d'états.Show less >
Show more >Cette thèse traite des domaines suivant en Apprentissage Automatique: la théorie des Bandits, l'Apprentissage statistique et l'Apprentissage par renforcement. Son fil rouge est l'étude de plusieurs notions d'adaptation, d'un point de vue non asymptotique : à un environnement ou à un adversaire dans la partie I, à la structure d'un signal dans la partie II, à la structure de récompenses ou à un modèle des états du monde dans la partie III. Tout d'abord nous dérivons une analyse non asymptotique d'un algorithme de bandit à plusieurs bras utilisant la divergence de Kullback-Leibler. Celle-ci permet d'atteindre, dans le cas de distributions à support fini, la borne inférieure de performance asymptotique dépendante des distributions de probabilité connue pour ce problème. Puis, pour un bandit avec un adversaire possiblement adaptatif, nous introduisons des modèles dépendants de l'histoire et traduisant une possible faiblesse de l'adversaire et montrons comment en tirer parti pour concevoir des algorithmes adaptatifs à cette faiblesse. Nous contribuons au problème de la régression en montrant l'utilité des projections aléatoires, à la fois sur le plan théorique et pratique, lorsque l'espace d'hypothèses considéré est de dimension grande, voire infinie. Nous utilisons également des opérateurs d'échantillonnage aléatoires dans le cadre de la reconstruction parcimonieuse lorsque la base est loin d'être orthogonale. Enfin, nous combinons la partie I et II : pour fournir une analyse non-asymptotique d'algorithmes d'apprentissage par renforcement; puis, en amont du cadre des Processus Décisionnel de Markov, pour discuter du problème pratique du choix d'un bon modèle d'états.Show less >
English abstract : [en]
This thesis studies the following topics in Machine Learning: Bandit theory, Statistical learning and Reinforcement learning. The common underlying thread is the non-asymptotic study of various notions of adaptation: to ...
Show more >This thesis studies the following topics in Machine Learning: Bandit theory, Statistical learning and Reinforcement learning. The common underlying thread is the non-asymptotic study of various notions of adaptation: to an environment or an opponent in part I about bandit theory, to the structure of a signal in part II about statistical theory, to the structure of states and rewards or to some state-model of the world in part III about reinforcement learning. First we derive a non-asymptotic analysis of a Kullback-Leibler-based algorithm for the stochastic multi-armed bandit that enables to match, in the case of distributions with finite support, the asymptotic distribution-dependent lower bound known for this problem. Now for a multi-armed bandit with a possibly adaptive opponent, we introduce history-based models to catch some weakness of the opponent, and show how one can benefit from such models to design algorithms adaptive to this weakness. Then we contribute to the regression setting and show how the use of random matrices can be beneficial both theoretically and numerically when the considered hypothesis space has a large, possibly infinite, dimension. We also use random matrices in the sparse recovery setting to build sensing operators that allow for recovery when the basis is far from being orthogonal. Finally we combine part I and II to first provide a non-asymptotic analysis of reinforcement learning algorithms such as Bellman-residual minimization and a version of Leastsquares temporal-difference that uses random projections and then, upstream of the Markov Decision Problem setting, discuss the practical problem of choosing a good model of states.Show less >
Show more >This thesis studies the following topics in Machine Learning: Bandit theory, Statistical learning and Reinforcement learning. The common underlying thread is the non-asymptotic study of various notions of adaptation: to an environment or an opponent in part I about bandit theory, to the structure of a signal in part II about statistical theory, to the structure of states and rewards or to some state-model of the world in part III about reinforcement learning. First we derive a non-asymptotic analysis of a Kullback-Leibler-based algorithm for the stochastic multi-armed bandit that enables to match, in the case of distributions with finite support, the asymptotic distribution-dependent lower bound known for this problem. Now for a multi-armed bandit with a possibly adaptive opponent, we introduce history-based models to catch some weakness of the opponent, and show how one can benefit from such models to design algorithms adaptive to this weakness. Then we contribute to the regression setting and show how the use of random matrices can be beneficial both theoretically and numerically when the considered hypothesis space has a large, possibly infinite, dimension. We also use random matrices in the sparse recovery setting to build sensing operators that allow for recovery when the basis is far from being orthogonal. Finally we combine part I and II to first provide a non-asymptotic analysis of reinforcement learning algorithms such as Bellman-residual minimization and a version of Leastsquares temporal-difference that uses random projections and then, upstream of the Markov Decision Problem setting, discuss the practical problem of choosing a good model of states.Show less >
Language :
Anglais
Collections :
Source :
Files
- https://tel.archives-ouvertes.fr/tel-00845410/document
- Open access
- Access the document
- https://tel.archives-ouvertes.fr/tel-00845410/document
- Open access
- Access the document
- document
- Open access
- Access the document
- thesis_Maillard.pdf
- Open access
- Access the document
- document
- Open access
- Access the document
- thesis_Maillard.pdf
- Open access
- Access the document