Contributions à la résolution optimale de ...
Type de document :
Habilitation à diriger des recherches
Titre :
Contributions à la résolution optimale de différents problèmes de bandit
Titre en anglais :
Contributions to the Optimal Solution of Several Bandit Problems
Auteur(s) :
Directeur(s) de thèse :
Philippe Preux
Date de soutenance :
2020-11-13
Président du jury :
Francis Bach (Garant)
Alexandra Carpentier (Examinatrice)
Eric Moulines (Rapporteur)
Alexandre Proutière (Rapporteur)
Gilles Stoltz (Rapporteur)
Csaba Szepesvari (Examinateur)
Alexandra Carpentier (Examinatrice)
Eric Moulines (Rapporteur)
Alexandre Proutière (Rapporteur)
Gilles Stoltz (Rapporteur)
Csaba Szepesvari (Examinateur)
Membre(s) du jury :
Francis Bach (Garant)
Alexandra Carpentier (Examinatrice)
Eric Moulines (Rapporteur)
Alexandre Proutière (Rapporteur)
Gilles Stoltz (Rapporteur)
Csaba Szepesvari (Examinateur)
Alexandra Carpentier (Examinatrice)
Eric Moulines (Rapporteur)
Alexandre Proutière (Rapporteur)
Gilles Stoltz (Rapporteur)
Csaba Szepesvari (Examinateur)
Organisme de délivrance :
Université de Lille
Mot(s)-clé(s) :
Prise de décision séquentielle
Algorithmes de bandits
Algorithmes de bandits
Mot(s)-clé(s) en anglais :
Sequential decision making
Bandit algorithms
Bandit algorithms
Discipline(s) HAL :
Statistiques [stat]/Machine Learning [stat.ML]
Résumé :
Ce document présente d’une manière unifiée plusieurs résultats liés à la résolution optimale deproblèmes dits de bandit à plusieurs bras. Nous présentons et analysons des algorithmes pour la prise dedécision séquentielle ...
Lire la suite >Ce document présente d’une manière unifiée plusieurs résultats liés à la résolution optimale deproblèmes dits de bandit à plusieurs bras. Nous présentons et analysons des algorithmes pour la prise dedécision séquentielle qui échantillonnent de manière adaptative des distributions de probabilités ayantdes caractéristiques inconnues, dans le but de remplir différents types d’objectifs. Nous présentonsdes contributions pour la résolution de deux types de problèmes. D’une part nous nous intéressons àla maximization de récompenses dans des variantes du modèle de bandit classique, et d’autre part nousétudions différents problèmes d’identification active, pour lesquels l’objectif est d’optimiser l’explorationde l’environement de sorte à pouvoir répondre une question (possiblement complexe) sur les distributionssous-jacentes, mais sans la contrainte de maximiser des récompenses. Nous mettons en avant plusieursoutils communs pour traiter ces deux types de problèmes. Tout d’abord l’utilisation de bornes inférieures,qui permettent non seulement de valider l’optimalité d’un algorithme, mais qui servent aussi à guiderla conception d’algorithmes asymptotiquement optimaux. Nous présentons en effet plusieurs exemplesd’algorithmes inspirés par des bornes inférieures. Ensuite, nous insistons sur l’importance des inégalitésde concentration auto-normalisées et uniformes en temps pour l’analyse d’algorithmes de bandits. En-fin, nous présentons plusieurs variantes d’un important principe bayésien appelé l’échantillonnage deThompson, qui conduit à des algorithmes asymptotiquement optimaux et faciles d’implémentation danscertains cas particuliers.Lire moins >
Lire la suite >Ce document présente d’une manière unifiée plusieurs résultats liés à la résolution optimale deproblèmes dits de bandit à plusieurs bras. Nous présentons et analysons des algorithmes pour la prise dedécision séquentielle qui échantillonnent de manière adaptative des distributions de probabilités ayantdes caractéristiques inconnues, dans le but de remplir différents types d’objectifs. Nous présentonsdes contributions pour la résolution de deux types de problèmes. D’une part nous nous intéressons àla maximization de récompenses dans des variantes du modèle de bandit classique, et d’autre part nousétudions différents problèmes d’identification active, pour lesquels l’objectif est d’optimiser l’explorationde l’environement de sorte à pouvoir répondre une question (possiblement complexe) sur les distributionssous-jacentes, mais sans la contrainte de maximiser des récompenses. Nous mettons en avant plusieursoutils communs pour traiter ces deux types de problèmes. Tout d’abord l’utilisation de bornes inférieures,qui permettent non seulement de valider l’optimalité d’un algorithme, mais qui servent aussi à guiderla conception d’algorithmes asymptotiquement optimaux. Nous présentons en effet plusieurs exemplesd’algorithmes inspirés par des bornes inférieures. Ensuite, nous insistons sur l’importance des inégalitésde concentration auto-normalisées et uniformes en temps pour l’analyse d’algorithmes de bandits. En-fin, nous présentons plusieurs variantes d’un important principe bayésien appelé l’échantillonnage deThompson, qui conduit à des algorithmes asymptotiquement optimaux et faciles d’implémentation danscertains cas particuliers.Lire moins >
Résumé en anglais : [en]
This document presents in a unified way different results about the optimal solution of several multiarmed bandit problems. We present and analyze algorithms for sequential decision making that adaptively sample several ...
Lire la suite >This document presents in a unified way different results about the optimal solution of several multiarmed bandit problems. We present and analyze algorithms for sequential decision making that adaptively sample several probability distributions with unknown characteristics, in order to achieve different types of objectives. Our contributions cover two types of problems. On the one hand, we study rewards maximization in some variants of the classical bandit model and on the other hand we focus and socalled active identification problems, in which there is no incentive to maximize reward, but one should optimize exploration in order to answer some (possibly complex) question about the underlying distri-butions. We highlight several common tools for solving these problems. First, lower bounds, that not only permit to assess the optimality of an algorithm, but also guide the design of asymptotically optimal algorithms. We indeed provide several examples of lower-bound-inspired algorithms. Then, we emphasize the importance of time-uniform self-normalized concentration inequalities to analyze algorithms. Finally, on the algorithmic side, we present several variants of an important Bayesian principle called Thompson Sampling, which leads to easy-to-implement asymptotically optimal algorithms in some particular cases.Lire moins >
Lire la suite >This document presents in a unified way different results about the optimal solution of several multiarmed bandit problems. We present and analyze algorithms for sequential decision making that adaptively sample several probability distributions with unknown characteristics, in order to achieve different types of objectives. Our contributions cover two types of problems. On the one hand, we study rewards maximization in some variants of the classical bandit model and on the other hand we focus and socalled active identification problems, in which there is no incentive to maximize reward, but one should optimize exploration in order to answer some (possibly complex) question about the underlying distri-butions. We highlight several common tools for solving these problems. First, lower bounds, that not only permit to assess the optimality of an algorithm, but also guide the design of asymptotically optimal algorithms. We indeed provide several examples of lower-bound-inspired algorithms. Then, we emphasize the importance of time-uniform self-normalized concentration inequalities to analyze algorithms. Finally, on the algorithmic side, we present several variants of an important Bayesian principle called Thompson Sampling, which leads to easy-to-implement asymptotically optimal algorithms in some particular cases.Lire moins >
Langue :
Anglais
Collections :
Source :
Fichiers
- https://tel.archives-ouvertes.fr/tel-03825097/document
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- HDR_EmilieKaufmann.pdf
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- HDR_EmilieKaufmann.pdf
- Accès libre
- Accéder au document