Sub-sampling for Efficient Non-Parametric ...
Type de document :
Communication dans un congrès avec actes
Titre :
Sub-sampling for Efficient Non-Parametric Bandit Exploration
Auteur(s) :
Baudry, Dorian [Auteur]
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Scool [Scool]
Kaufmann, Emilie [Auteur]
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Scool [Scool]
Maillard, Odalric Ambrym [Auteur]
Scool [Scool]
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Scool [Scool]
Kaufmann, Emilie [Auteur]
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Scool [Scool]
Maillard, Odalric Ambrym [Auteur]
Scool [Scool]
Titre de la manifestation scientifique :
NeurIPS 2020
Ville :
Vancouver
Pays :
Canada
Date de début de la manifestation scientifique :
2020-12-07
Titre de la revue :
Proc. NeurIPS
Discipline(s) HAL :
Statistiques [stat]/Machine Learning [stat.ML]
Résumé en anglais : [en]
In this paper we propose the first multi-armed bandit algorithm based on re-sampling that achieves asymptotically optimal regret simultaneously for different families of arms (namely Bernoulli, Gaussian and Poisson ...
Lire la suite >In this paper we propose the first multi-armed bandit algorithm based on re-sampling that achieves asymptotically optimal regret simultaneously for different families of arms (namely Bernoulli, Gaussian and Poisson distributions). Unlike Thompson Sampling which requires to specify a different prior to be optimal in each case, our proposal RB-SDA does not need any distribution-dependent tuning. RB-SDA belongs to the family of Sub-sampling Duelling Algorithms (SDA) which combines the sub-sampling idea first used by the BESA [1] and SSMC [2] algorithms with different sub-sampling schemes. In particular, RB-SDA uses Random Block sampling. We perform an experimental study assessing the flexibility and robustness of this promising novel approach for exploration in bandit models.Lire moins >
Lire la suite >In this paper we propose the first multi-armed bandit algorithm based on re-sampling that achieves asymptotically optimal regret simultaneously for different families of arms (namely Bernoulli, Gaussian and Poisson distributions). Unlike Thompson Sampling which requires to specify a different prior to be optimal in each case, our proposal RB-SDA does not need any distribution-dependent tuning. RB-SDA belongs to the family of Sub-sampling Duelling Algorithms (SDA) which combines the sub-sampling idea first used by the BESA [1] and SSMC [2] algorithms with different sub-sampling schemes. In particular, RB-SDA uses Random Block sampling. We perform an experimental study assessing the flexibility and robustness of this promising novel approach for exploration in bandit models.Lire moins >
Langue :
Anglais
Comité de lecture :
Oui
Audience :
Internationale
Vulgarisation :
Non
Projet ANR :
Collections :
Source :
Fichiers
- https://hal.archives-ouvertes.fr/hal-02977552/document
- Accès libre
- Accéder au document
- http://arxiv.org/pdf/2010.14323
- Accès libre
- Accéder au document
- https://hal.archives-ouvertes.fr/hal-02977552/document
- Accès libre
- Accéder au document
- https://hal.archives-ouvertes.fr/hal-02977552/document
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- sda_hal.pdf
- Accès libre
- Accéder au document
- 2010.14323
- Accès libre
- Accéder au document