Apprentissage par Renforcement pour ...
Type de document :
Thèse
Titre :
Apprentissage par Renforcement pour l'optimisation des systèmes de dialogue via l'adaptation à l'utilisateur.
Titre en anglais :
Reinforcement learning for Dialogue Systems optimization with user adaptation.
Auteur(s) :
Carrara, Nicolas [Auteur]
Sequential Learning [SEQUEL]
Orange Labs
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Sequential Learning [SEQUEL]
Orange Labs
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Directeur(s) de thèse :
Olivier Pietquin
Date de soutenance :
2019-12-18
Organisme de délivrance :
Ecole Doctoral Science pour l'Ingénieur Université Lille Nord-de-France
Mot(s)-clé(s) :
apprentissage-par-renforcement appretissage-par-transfer systèmes-de-dialogue adaptation-utilisateur
Mot(s)-clé(s) en anglais :
reinforcement-learning transfer-learning dialogue-systems user-adaptation
Discipline(s) HAL :
Informatique [cs]/Intelligence artificielle [cs.AI]
Informatique [cs]/Apprentissage [cs.LG]
Informatique [cs]/Apprentissage [cs.LG]
Résumé :
Les systèmes d’intelligence artificielle les plus puissants utilisent désormais des modèlesstatistiques. Afin de construire des modèles efficaces, ces systèmes doivent collecter unequantité substantielle de données issues ...
Lire la suite >Les systèmes d’intelligence artificielle les plus puissants utilisent désormais des modèlesstatistiques. Afin de construire des modèles efficaces, ces systèmes doivent collecter unequantité substantielle de données issues de l’environnement. Les assistants personnels,maisons connectées, serveurs vocaux et autres systèmes de dialogue ne font pas exception.Ces systèmes ont pour vocation d’interagir avec des humains, et pour cela, leurs donnéesd’apprentissage se doivent d’être collectées avec ces mêmes humains. Parce que le nombred’interactions avec une seule personne est assez faible, l’approche usuelle pour augmenterle jeu de données consiste à agréger les données de tous les utilisateurs.Une des limitations de cette approche vient du fait que, par construction, les mod-èles entraînés ainsi ne sont efficaces qu’avec un humain "moyen" et n’incluent pas desystème d’adaptation ; cette faiblesse entraîne la restriction du service à certains groupesde personnes; Par conséquent, cela réduit l’ensemble des utilisateurs et provoque desproblèmes d’inclusion. La présente thèse propose des solutions impliquant la constructionde systèmes de dialogue combinant l’apprentissage par transfert et l’apprentissage parrenforcement. La thèse explore deux pistes de recherche :La première consiste à inclure un mécanisme d’adaptation dès les premières interac-tions avec un nouvel utilisateur. Pour ce faire, nous utilisons la connaissance accumuléeavec des utilisateurs déjà connus du système. La question sous-jacente est la suivante :comment gérer l’évolution du système suite à une croissance interrompue d’utilisateurset donc de connaissance? La première approche implique le clustering des systèmesde dialogue (chacun étant spécialisé pour un utilisateur) en fonction de leurs stratégies.Nous démontrons que la méthode améliore la qualité des dialogues en interagissant avecdes modèles à base de règles et des modèles d’humains. La seconde approche proposed’inclure un mécanisme d’apprentissage par transfert dans l’exécution d’un algorithmed’apprentissage profond par renforcement, Deep Q-learning.La seconde piste avance l’idée selon laquelle les premières interactions avec un nouvelutilisateur devraient être gérées par un système de dialogue sécurisé et précautionneuxavant d’utiliser un système de dialogue spécialisé. L’approche se divise en deux étapes.La première étape consiste à apprendre une stratégie sécurisée avec de l’apprentissage parrenforcement. À cet effet, nous proposons un nouveau framework d’apprentissage parrenforcement sous contrainte en états continus ainsi que des algorithmes les solutionnant.En particulier, nous validons, en termes de sécurité et d’efficacité, une extension de Fitted-Q pour les deux applications sous contraintes : les systèmes de dialogue et la conduiteautonome. La deuxième étape implique l’utilisation de ces stratégies sécurisées lors despremières interactions avec un nouvel utilisateur ; cette méthode est une extension del’algorithme classique d’exploration, ε-greedyLire moins >
Lire la suite >Les systèmes d’intelligence artificielle les plus puissants utilisent désormais des modèlesstatistiques. Afin de construire des modèles efficaces, ces systèmes doivent collecter unequantité substantielle de données issues de l’environnement. Les assistants personnels,maisons connectées, serveurs vocaux et autres systèmes de dialogue ne font pas exception.Ces systèmes ont pour vocation d’interagir avec des humains, et pour cela, leurs donnéesd’apprentissage se doivent d’être collectées avec ces mêmes humains. Parce que le nombred’interactions avec une seule personne est assez faible, l’approche usuelle pour augmenterle jeu de données consiste à agréger les données de tous les utilisateurs.Une des limitations de cette approche vient du fait que, par construction, les mod-èles entraînés ainsi ne sont efficaces qu’avec un humain "moyen" et n’incluent pas desystème d’adaptation ; cette faiblesse entraîne la restriction du service à certains groupesde personnes; Par conséquent, cela réduit l’ensemble des utilisateurs et provoque desproblèmes d’inclusion. La présente thèse propose des solutions impliquant la constructionde systèmes de dialogue combinant l’apprentissage par transfert et l’apprentissage parrenforcement. La thèse explore deux pistes de recherche :La première consiste à inclure un mécanisme d’adaptation dès les premières interac-tions avec un nouvel utilisateur. Pour ce faire, nous utilisons la connaissance accumuléeavec des utilisateurs déjà connus du système. La question sous-jacente est la suivante :comment gérer l’évolution du système suite à une croissance interrompue d’utilisateurset donc de connaissance? La première approche implique le clustering des systèmesde dialogue (chacun étant spécialisé pour un utilisateur) en fonction de leurs stratégies.Nous démontrons que la méthode améliore la qualité des dialogues en interagissant avecdes modèles à base de règles et des modèles d’humains. La seconde approche proposed’inclure un mécanisme d’apprentissage par transfert dans l’exécution d’un algorithmed’apprentissage profond par renforcement, Deep Q-learning.La seconde piste avance l’idée selon laquelle les premières interactions avec un nouvelutilisateur devraient être gérées par un système de dialogue sécurisé et précautionneuxavant d’utiliser un système de dialogue spécialisé. L’approche se divise en deux étapes.La première étape consiste à apprendre une stratégie sécurisée avec de l’apprentissage parrenforcement. À cet effet, nous proposons un nouveau framework d’apprentissage parrenforcement sous contrainte en états continus ainsi que des algorithmes les solutionnant.En particulier, nous validons, en termes de sécurité et d’efficacité, une extension de Fitted-Q pour les deux applications sous contraintes : les systèmes de dialogue et la conduiteautonome. La deuxième étape implique l’utilisation de ces stratégies sécurisées lors despremières interactions avec un nouvel utilisateur ; cette méthode est une extension del’algorithme classique d’exploration, ε-greedyLire moins >
Résumé en anglais : [en]
The most powerful artificial intelligence systems are now based on learned statisticalmodels. In order to build efficient models, these systems must collect a huge amountof data on their environment. Personal assistants, ...
Lire la suite >The most powerful artificial intelligence systems are now based on learned statisticalmodels. In order to build efficient models, these systems must collect a huge amountof data on their environment. Personal assistants, smart-homes, voice-servers and otherdialogue applications are no exceptions to this statement. A specificity of those systems isthat they are designed to interact with humans, and as a consequence, their training datahas to be collected from interactions with these humans. As the number of interactionswith a single person is often too scarce to train a proper model, the usual approach tomaximise the amount of data consists in mixing data collected with different users into asingle corpus.However, one limitation of this approach is that, by construction, the trained modelsare only efficient with an "average" human and do not include any sort of adaptation; thislack of adaptation makes the service unusable for some specific group of persons andleads to a restricted customers base and inclusiveness problems. This thesis proposessolutions to construct Dialogue Systems that are robust to this problem by combiningTransfer Learning and Reinforcement Learning. It explores two main ideas:The first idea of this thesis consists in incorporating adaptation in the very first dialogueswith a new user. To that extend, we use the knowledge gathered with previous users. Buthow to scale such systems with a growing database of user interactions? The first proposedapproach involves clustering of Dialogue Systems (tailored for their respective user)based on their behaviours. We demonstrated through handcrafted and real user-modelsexperiments how this method improves the dialogue quality for new and unknown users.The second approach extends the Deep Q-learning algorithm with a continuous transferprocess.The second idea states that before using a dedicated Dialogue System, the first in-teractions with a user should be handled carefully by a safe Dialogue System commonto all users. The underlying approach is divided in two steps. The first step consists inlearning a safe strategy through Reinforcement Learning. To that extent, we introduced abudgeted Reinforcement Learning framework for continuous state space and the underlyingextensions of classic Reinforcement Learning algorithms. In particular, the safe version ofthe Fitted-Q algorithm has been validated, in term of safety and efficiency, on a dialoguesystem tasks and an autonomous driving problem. The second step consists in using thosesafe strategies when facing new users; this method is an extension of the classic ε-greedyalgorithm.Lire moins >
Lire la suite >The most powerful artificial intelligence systems are now based on learned statisticalmodels. In order to build efficient models, these systems must collect a huge amountof data on their environment. Personal assistants, smart-homes, voice-servers and otherdialogue applications are no exceptions to this statement. A specificity of those systems isthat they are designed to interact with humans, and as a consequence, their training datahas to be collected from interactions with these humans. As the number of interactionswith a single person is often too scarce to train a proper model, the usual approach tomaximise the amount of data consists in mixing data collected with different users into asingle corpus.However, one limitation of this approach is that, by construction, the trained modelsare only efficient with an "average" human and do not include any sort of adaptation; thislack of adaptation makes the service unusable for some specific group of persons andleads to a restricted customers base and inclusiveness problems. This thesis proposessolutions to construct Dialogue Systems that are robust to this problem by combiningTransfer Learning and Reinforcement Learning. It explores two main ideas:The first idea of this thesis consists in incorporating adaptation in the very first dialogueswith a new user. To that extend, we use the knowledge gathered with previous users. Buthow to scale such systems with a growing database of user interactions? The first proposedapproach involves clustering of Dialogue Systems (tailored for their respective user)based on their behaviours. We demonstrated through handcrafted and real user-modelsexperiments how this method improves the dialogue quality for new and unknown users.The second approach extends the Deep Q-learning algorithm with a continuous transferprocess.The second idea states that before using a dedicated Dialogue System, the first in-teractions with a user should be handled carefully by a safe Dialogue System commonto all users. The underlying approach is divided in two steps. The first step consists inlearning a safe strategy through Reinforcement Learning. To that extent, we introduced abudgeted Reinforcement Learning framework for continuous state space and the underlyingextensions of classic Reinforcement Learning algorithms. In particular, the safe version ofthe Fitted-Q algorithm has been validated, in term of safety and efficiency, on a dialoguesystem tasks and an autonomous driving problem. The second step consists in using thosesafe strategies when facing new users; this method is an extension of the classic ε-greedyalgorithm.Lire moins >
Langue :
Anglais
Collections :
Source :
Fichiers
- https://tel.archives-ouvertes.fr/tel-02422691/document
- Accès libre
- Accéder au document
- https://tel.archives-ouvertes.fr/tel-02422691/document
- Accès libre
- Accéder au document
- https://tel.archives-ouvertes.fr/tel-02422691/document
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- thesis-nicolas-carrara.pdf
- Accès libre
- Accéder au document