Multi-Armed Bandits with Unconventional Feedback
Document type :
Thèse
Title :
Multi-Armed Bandits with Unconventional Feedback
English title :
Bandits Multi-bras avec retour d'information non-conventionnelle
Author(s) :
Thesis director(s) :
Philippe Preux
Defence date :
2017-11-14
Jury president :
Alexandra Carpentier (Examinatrice)
Richard Combes (Examinateur)
Maarten De Rijke (Rapporteur)
Aurélien Garivier (Rapporteur)
Gabor Lugosi (Président)
Tanguy Urvoy (Co-encadrant)
Richard Combes (Examinateur)
Maarten De Rijke (Rapporteur)
Aurélien Garivier (Rapporteur)
Gabor Lugosi (Président)
Tanguy Urvoy (Co-encadrant)
Jury member(s) :
Alexandra Carpentier (Examinatrice)
Richard Combes (Examinateur)
Maarten De Rijke (Rapporteur)
Aurélien Garivier (Rapporteur)
Gabor Lugosi (Président)
Tanguy Urvoy (Co-encadrant)
Richard Combes (Examinateur)
Maarten De Rijke (Rapporteur)
Aurélien Garivier (Rapporteur)
Gabor Lugosi (Président)
Tanguy Urvoy (Co-encadrant)
Accredited body :
Université de Lille
Keyword(s) :
bandits
apprentissage statistique
apprentissage statistique
English keyword(s) :
machine learning
HAL domain(s) :
Informatique [cs]/Intelligence artificielle [cs.AI]
Informatique [cs]/Apprentissage [cs.LG]
Statistiques [stat]/Machine Learning [stat.ML]
Informatique [cs]/Apprentissage [cs.LG]
Statistiques [stat]/Machine Learning [stat.ML]
French abstract :
The multi-armed bandit (MAB) problem is a mathematical formulation of theexploration-exploitation trade-off inherent to reinforcement learning, in which thelearner chooses an action (symblized by an arm) from a set of ...
Show more >The multi-armed bandit (MAB) problem is a mathematical formulation of theexploration-exploitation trade-off inherent to reinforcement learning, in which thelearner chooses an action (symblized by an arm) from a set of available actions ina sequence of trials in order to maximize their reward. In the classical MAB prob-lem, the learner receives absolute bandit feedback i.e. it receives as feedback thereward of the arm it selects. In many practical situations however, different kindof feedback is more readily available. In this thesis, we study two of such kinds offeedbacks, namely, relative feedback and corrupt feedback.The main practical motivation behind relative feedback arises from the task ofonline ranker evaluation. This task involves choosing the optimal ranker from a fi-nite set of rankers using only pairwise comparisons, while minimizing the compar-isons between sub-optimal rankers. This is formalized by the MAB problem withrelative feedback, in which the learner selects two arms instead of one and receivesthe preference feedback. We consider the adversarial formulation of this problemwhich circumvents the stationarity assumption over the mean rewards for the arms.We provide a lower bound on the performance measure for any algorithm for thisproblem. We also provide an algorithm called "Relative Exponential-weight algo-rithm for Exploration and Exploitation" with performance guarantees. We present athorough empirical study on several information retrieval datasets that confirm thevalidity of these theoretical results.The motivating theme behind corrupt feedback is that the feedback the learnerreceives is a corrupted form of the corresponding reward of the selected arm. Prac-tically such a feedback is available in the tasks of online advertising, recommendersystems etc. We consider two goals for the MAB problem with corrupt feedback:best arm identification and exploration-exploitation. For both the goals, we providelower bounds on the performance measures for any algorithm. We also providevarious algorithms for these settings. The main contribution of this module is the al-gorithms "KLUCB-CF" and "Thompson Sampling-CF" which asymptotically attainthe best possible performance. We present experimental results to demonstrate theperformance of these algorithms. We also show how this problem setting can beused for the practical application of enforcing differential privacy.Show less >
Show more >The multi-armed bandit (MAB) problem is a mathematical formulation of theexploration-exploitation trade-off inherent to reinforcement learning, in which thelearner chooses an action (symblized by an arm) from a set of available actions ina sequence of trials in order to maximize their reward. In the classical MAB prob-lem, the learner receives absolute bandit feedback i.e. it receives as feedback thereward of the arm it selects. In many practical situations however, different kindof feedback is more readily available. In this thesis, we study two of such kinds offeedbacks, namely, relative feedback and corrupt feedback.The main practical motivation behind relative feedback arises from the task ofonline ranker evaluation. This task involves choosing the optimal ranker from a fi-nite set of rankers using only pairwise comparisons, while minimizing the compar-isons between sub-optimal rankers. This is formalized by the MAB problem withrelative feedback, in which the learner selects two arms instead of one and receivesthe preference feedback. We consider the adversarial formulation of this problemwhich circumvents the stationarity assumption over the mean rewards for the arms.We provide a lower bound on the performance measure for any algorithm for thisproblem. We also provide an algorithm called "Relative Exponential-weight algo-rithm for Exploration and Exploitation" with performance guarantees. We present athorough empirical study on several information retrieval datasets that confirm thevalidity of these theoretical results.The motivating theme behind corrupt feedback is that the feedback the learnerreceives is a corrupted form of the corresponding reward of the selected arm. Prac-tically such a feedback is available in the tasks of online advertising, recommendersystems etc. We consider two goals for the MAB problem with corrupt feedback:best arm identification and exploration-exploitation. For both the goals, we providelower bounds on the performance measures for any algorithm. We also providevarious algorithms for these settings. The main contribution of this module is the al-gorithms "KLUCB-CF" and "Thompson Sampling-CF" which asymptotically attainthe best possible performance. We present experimental results to demonstrate theperformance of these algorithms. We also show how this problem setting can beused for the practical application of enforcing differential privacy.Show less >
English abstract : [en]
Dans cette thèse, nous étudions des problèmes de prise de décisions séquentielles dans lesquels, pour chacune de ses décisions, l'apprenant reçoit une information qu'il utilise pour guider ses décisions futures. Pour aller ...
Show more >Dans cette thèse, nous étudions des problèmes de prise de décisions séquentielles dans lesquels, pour chacune de ses décisions, l'apprenant reçoit une information qu'il utilise pour guider ses décisions futures. Pour aller au-delà du retour d’information conventionnel tel qu'il a été bien étudié pour des problèmes de prise de décision séquentielle tels que les bandits multi-bras, nous considérons des formes de retour d’information partielle motivées par des applications pratiques.En premier, nous considérons le problème des bandits duellistes, dans lequel l'apprenant sélectionne deux actions à chaque pas de temps et reçoit en retour une information relative (i.e. de préférence) entre les valeurs instantanées de ces deux actions.En particulier, nous proposons un algorithme optimal qui permet à l'apprenant d'obtenir un regret cumulatif quasi-optimal (le regret est la différence entre la récompense cumulative optimale et la récompense cumulative constatée de l’apprenant).Dans un second temps, nous considérons le problème des bandits corrompus, dans lequel un processus de corruption stochastique perturbe le retour d’information. Pour ce problème aussi, nous concevons des algorithmes pour obtenir un regret cumulatif asymptotiquement optimal. En outre, nous examinons la relation entre ces deux problèmes dans le cadre du monitoring partiel \textit{(partial monitoring)} qui est un paradigme générique pour la prise de décision séquentielle avec retour d'information partielle.Show less >
Show more >Dans cette thèse, nous étudions des problèmes de prise de décisions séquentielles dans lesquels, pour chacune de ses décisions, l'apprenant reçoit une information qu'il utilise pour guider ses décisions futures. Pour aller au-delà du retour d’information conventionnel tel qu'il a été bien étudié pour des problèmes de prise de décision séquentielle tels que les bandits multi-bras, nous considérons des formes de retour d’information partielle motivées par des applications pratiques.En premier, nous considérons le problème des bandits duellistes, dans lequel l'apprenant sélectionne deux actions à chaque pas de temps et reçoit en retour une information relative (i.e. de préférence) entre les valeurs instantanées de ces deux actions.En particulier, nous proposons un algorithme optimal qui permet à l'apprenant d'obtenir un regret cumulatif quasi-optimal (le regret est la différence entre la récompense cumulative optimale et la récompense cumulative constatée de l’apprenant).Dans un second temps, nous considérons le problème des bandits corrompus, dans lequel un processus de corruption stochastique perturbe le retour d’information. Pour ce problème aussi, nous concevons des algorithmes pour obtenir un regret cumulatif asymptotiquement optimal. En outre, nous examinons la relation entre ces deux problèmes dans le cadre du monitoring partiel \textit{(partial monitoring)} qui est un paradigme générique pour la prise de décision séquentielle avec retour d'information partielle.Show less >
Language :
Anglais
Collections :
Source :
Files
- https://tel.archives-ouvertes.fr/tel-01706640v2/document
- Open access
- Access the document
- https://tel.archives-ouvertes.fr/tel-01706640v2/document
- Open access
- Access the document
- https://tel.archives-ouvertes.fr/tel-01706640v2/document
- Open access
- Access the document
- document
- Open access
- Access the document
- phd-gajane.pdf
- Open access
- Access the document