Contributions à la résolution optimale de ...
Document type :
Habilitation à diriger des recherches
Title :
Contributions à la résolution optimale de différents problèmes de bandit
English title :
Contributions to the Optimal Solution of Several Bandit Problems
Author(s) :
Thesis director(s) :
Philippe Preux
Defence date :
2020-11-13
Jury president :
Francis Bach (Garant)
Alexandra Carpentier (Examinatrice)
Eric Moulines (Rapporteur)
Alexandre Proutière (Rapporteur)
Gilles Stoltz (Rapporteur)
Csaba Szepesvari (Examinateur)
Alexandra Carpentier (Examinatrice)
Eric Moulines (Rapporteur)
Alexandre Proutière (Rapporteur)
Gilles Stoltz (Rapporteur)
Csaba Szepesvari (Examinateur)
Jury member(s) :
Francis Bach (Garant)
Alexandra Carpentier (Examinatrice)
Eric Moulines (Rapporteur)
Alexandre Proutière (Rapporteur)
Gilles Stoltz (Rapporteur)
Csaba Szepesvari (Examinateur)
Alexandra Carpentier (Examinatrice)
Eric Moulines (Rapporteur)
Alexandre Proutière (Rapporteur)
Gilles Stoltz (Rapporteur)
Csaba Szepesvari (Examinateur)
Accredited body :
Université de Lille
Keyword(s) :
Prise de décision séquentielle
Algorithmes de bandits
Algorithmes de bandits
English keyword(s) :
Sequential decision making
Bandit algorithms
Bandit algorithms
HAL domain(s) :
Statistiques [stat]/Machine Learning [stat.ML]
French abstract :
Ce document présente d’une manière unifiée plusieurs résultats liés à la résolution optimale deproblèmes dits de bandit à plusieurs bras. Nous présentons et analysons des algorithmes pour la prise dedécision séquentielle ...
Show more >Ce document présente d’une manière unifiée plusieurs résultats liés à la résolution optimale deproblèmes dits de bandit à plusieurs bras. Nous présentons et analysons des algorithmes pour la prise dedécision séquentielle qui échantillonnent de manière adaptative des distributions de probabilités ayantdes caractéristiques inconnues, dans le but de remplir différents types d’objectifs. Nous présentonsdes contributions pour la résolution de deux types de problèmes. D’une part nous nous intéressons àla maximization de récompenses dans des variantes du modèle de bandit classique, et d’autre part nousétudions différents problèmes d’identification active, pour lesquels l’objectif est d’optimiser l’explorationde l’environement de sorte à pouvoir répondre une question (possiblement complexe) sur les distributionssous-jacentes, mais sans la contrainte de maximiser des récompenses. Nous mettons en avant plusieursoutils communs pour traiter ces deux types de problèmes. Tout d’abord l’utilisation de bornes inférieures,qui permettent non seulement de valider l’optimalité d’un algorithme, mais qui servent aussi à guiderla conception d’algorithmes asymptotiquement optimaux. Nous présentons en effet plusieurs exemplesd’algorithmes inspirés par des bornes inférieures. Ensuite, nous insistons sur l’importance des inégalitésde concentration auto-normalisées et uniformes en temps pour l’analyse d’algorithmes de bandits. En-fin, nous présentons plusieurs variantes d’un important principe bayésien appelé l’échantillonnage deThompson, qui conduit à des algorithmes asymptotiquement optimaux et faciles d’implémentation danscertains cas particuliers.Show less >
Show more >Ce document présente d’une manière unifiée plusieurs résultats liés à la résolution optimale deproblèmes dits de bandit à plusieurs bras. Nous présentons et analysons des algorithmes pour la prise dedécision séquentielle qui échantillonnent de manière adaptative des distributions de probabilités ayantdes caractéristiques inconnues, dans le but de remplir différents types d’objectifs. Nous présentonsdes contributions pour la résolution de deux types de problèmes. D’une part nous nous intéressons àla maximization de récompenses dans des variantes du modèle de bandit classique, et d’autre part nousétudions différents problèmes d’identification active, pour lesquels l’objectif est d’optimiser l’explorationde l’environement de sorte à pouvoir répondre une question (possiblement complexe) sur les distributionssous-jacentes, mais sans la contrainte de maximiser des récompenses. Nous mettons en avant plusieursoutils communs pour traiter ces deux types de problèmes. Tout d’abord l’utilisation de bornes inférieures,qui permettent non seulement de valider l’optimalité d’un algorithme, mais qui servent aussi à guiderla conception d’algorithmes asymptotiquement optimaux. Nous présentons en effet plusieurs exemplesd’algorithmes inspirés par des bornes inférieures. Ensuite, nous insistons sur l’importance des inégalitésde concentration auto-normalisées et uniformes en temps pour l’analyse d’algorithmes de bandits. En-fin, nous présentons plusieurs variantes d’un important principe bayésien appelé l’échantillonnage deThompson, qui conduit à des algorithmes asymptotiquement optimaux et faciles d’implémentation danscertains cas particuliers.Show less >
English abstract : [en]
This document presents in a unified way different results about the optimal solution of several multiarmed bandit problems. We present and analyze algorithms for sequential decision making that adaptively sample several ...
Show more >This document presents in a unified way different results about the optimal solution of several multiarmed bandit problems. We present and analyze algorithms for sequential decision making that adaptively sample several probability distributions with unknown characteristics, in order to achieve different types of objectives. Our contributions cover two types of problems. On the one hand, we study rewards maximization in some variants of the classical bandit model and on the other hand we focus and socalled active identification problems, in which there is no incentive to maximize reward, but one should optimize exploration in order to answer some (possibly complex) question about the underlying distri-butions. We highlight several common tools for solving these problems. First, lower bounds, that not only permit to assess the optimality of an algorithm, but also guide the design of asymptotically optimal algorithms. We indeed provide several examples of lower-bound-inspired algorithms. Then, we emphasize the importance of time-uniform self-normalized concentration inequalities to analyze algorithms. Finally, on the algorithmic side, we present several variants of an important Bayesian principle called Thompson Sampling, which leads to easy-to-implement asymptotically optimal algorithms in some particular cases.Show less >
Show more >This document presents in a unified way different results about the optimal solution of several multiarmed bandit problems. We present and analyze algorithms for sequential decision making that adaptively sample several probability distributions with unknown characteristics, in order to achieve different types of objectives. Our contributions cover two types of problems. On the one hand, we study rewards maximization in some variants of the classical bandit model and on the other hand we focus and socalled active identification problems, in which there is no incentive to maximize reward, but one should optimize exploration in order to answer some (possibly complex) question about the underlying distri-butions. We highlight several common tools for solving these problems. First, lower bounds, that not only permit to assess the optimality of an algorithm, but also guide the design of asymptotically optimal algorithms. We indeed provide several examples of lower-bound-inspired algorithms. Then, we emphasize the importance of time-uniform self-normalized concentration inequalities to analyze algorithms. Finally, on the algorithmic side, we present several variants of an important Bayesian principle called Thompson Sampling, which leads to easy-to-implement asymptotically optimal algorithms in some particular cases.Show less >
Language :
Anglais
Collections :
Source :
Files
- https://tel.archives-ouvertes.fr/tel-03825097/document
- Open access
- Access the document
- document
- Open access
- Access the document
- HDR_EmilieKaufmann.pdf
- Open access
- Access the document