Apprentissage séquentiel efficace dans des ...
Type de document :
Thèse
Titre :
Apprentissage séquentiel efficace dans des environnements structurés avec contraintes
Titre en anglais :
Efficient Sequential Learning in Structured and Constrained Environments
Auteur(s) :
Directeur(s) de thèse :
Michal Valko
Alessandro Lazaric
Alessandro Lazaric
Date de soutenance :
2017-12-18
Président du jury :
Ncolo Cesa-Bianchi [Rapporteur]
Michael Mahoney [Rapporteur]
Francis Bach [Examinateur]
Mylène Maïda [Examinateur]
Michael Mahoney [Rapporteur]
Francis Bach [Examinateur]
Mylène Maïda [Examinateur]
Membre(s) du jury :
Ncolo Cesa-Bianchi [Rapporteur]
Michael Mahoney [Rapporteur]
Francis Bach [Examinateur]
Mylène Maïda [Examinateur]
Michael Mahoney [Rapporteur]
Francis Bach [Examinateur]
Mylène Maïda [Examinateur]
Organisme de délivrance :
Inria Lille Nord Europe - Laboratoire CRIStAL - Université de Lille
Mot(s)-clé(s) :
Apprentissage
Mot(s)-clé(s) en anglais :
Nystrom approximation
Nystrom-type algorithm
Sequential learning
Stochastic gradient method
Newton and quasi-Newton methods
Graph Laplacian spectrum
Semi-supervised learning
Kernel learning
Gaussian process
Low-rank Matrix Approximation
Distributed learning
Dictionary learning
Principal component analysis method
Online learning
Nystrom-type algorithm
Sequential learning
Stochastic gradient method
Newton and quasi-Newton methods
Graph Laplacian spectrum
Semi-supervised learning
Kernel learning
Gaussian process
Low-rank Matrix Approximation
Distributed learning
Dictionary learning
Principal component analysis method
Online learning
Discipline(s) HAL :
Informatique [cs]/Apprentissage [cs.LG]
Statistiques [stat]/Machine Learning [stat.ML]
Informatique [cs]/Analyse numérique [cs.NA]
Statistiques [stat]/Machine Learning [stat.ML]
Informatique [cs]/Analyse numérique [cs.NA]
Résumé :
L’avantage principal des méthodes d’apprentissage non-paramétriques réside dans le faitque la nombre de degrés de libertés du modèle appris s’adapte automatiquement au nombred’échantillons. Ces méthodes sont cependant ...
Lire la suite >L’avantage principal des méthodes d’apprentissage non-paramétriques réside dans le faitque la nombre de degrés de libertés du modèle appris s’adapte automatiquement au nombred’échantillons. Ces méthodes sont cependant limitées par le "fléau de la kernelisation":apprendre le modèle requière dans un premier temps de construire une matrice de similitudeentre tous les échantillons. La complexité est alors quadratique en temps et espace, ce quis’avère rapidement trop coûteux pour les jeux de données de grande dimension.Cependant, la dimension "effective" d’un jeu de donnée est bien souvent beaucoup pluspetite que le nombre d’échantillons lui-même. Il est alors possible de substituer le jeude donnée réel par un jeu de données de taille réduite (appelé "dictionnaire") composéexclusivement d’échantillons informatifs. Malheureusement, les méthodes avec garantiesthéoriques utilisant des dictionnaires comme "Ridge Leverage Score" (RLS) ont aussi unecomplexité quadratique.Dans cette thèse nous présentons une nouvelle méthode d’échantillonage RLS qui met àjour le dictionnaire séquentiellement en ne comparant chaque nouvel échantillon qu’avecle dictionnaire actuel, et non avec l’ensemble des échantillons passés. Nous montrons quela taille de tous les dictionnaires ainsi construits est de l’ordre de la dimension effectivedu jeu de données final, guarantissant ainsi une complexité en temps et espace à chaqueétape indépendante du nombre total d’échantillons. Cette méthode présente l’avantage depouvoir être parallélisée.Enfin, nous montrons que de nombreux problèmes d’apprentissage non-paramétriquespeuvent être résolus de manière approchée grâce à notre méthode.Lire moins >
Lire la suite >L’avantage principal des méthodes d’apprentissage non-paramétriques réside dans le faitque la nombre de degrés de libertés du modèle appris s’adapte automatiquement au nombred’échantillons. Ces méthodes sont cependant limitées par le "fléau de la kernelisation":apprendre le modèle requière dans un premier temps de construire une matrice de similitudeentre tous les échantillons. La complexité est alors quadratique en temps et espace, ce quis’avère rapidement trop coûteux pour les jeux de données de grande dimension.Cependant, la dimension "effective" d’un jeu de donnée est bien souvent beaucoup pluspetite que le nombre d’échantillons lui-même. Il est alors possible de substituer le jeude donnée réel par un jeu de données de taille réduite (appelé "dictionnaire") composéexclusivement d’échantillons informatifs. Malheureusement, les méthodes avec garantiesthéoriques utilisant des dictionnaires comme "Ridge Leverage Score" (RLS) ont aussi unecomplexité quadratique.Dans cette thèse nous présentons une nouvelle méthode d’échantillonage RLS qui met àjour le dictionnaire séquentiellement en ne comparant chaque nouvel échantillon qu’avecle dictionnaire actuel, et non avec l’ensemble des échantillons passés. Nous montrons quela taille de tous les dictionnaires ainsi construits est de l’ordre de la dimension effectivedu jeu de données final, guarantissant ainsi une complexité en temps et espace à chaqueétape indépendante du nombre total d’échantillons. Cette méthode présente l’avantage depouvoir être parallélisée.Enfin, nous montrons que de nombreux problèmes d’apprentissage non-paramétriquespeuvent être résolus de manière approchée grâce à notre méthode.Lire moins >
Résumé en anglais : [en]
The main advantage of non-parametric models is that the accuracy of the model (degreesof freedom) adapts to the number of samples. The main drawback is the so-called "curseof kernelization": to learn the model we must first ...
Lire la suite >The main advantage of non-parametric models is that the accuracy of the model (degreesof freedom) adapts to the number of samples. The main drawback is the so-called "curseof kernelization": to learn the model we must first compute a similarity matrix among allsamples, which requires quadratic space and time and is unfeasible for large datasets.Nonetheless the underlying effective dimension (effective d.o.f.) of the dataset is often muchsmaller than its size, and we can replace the dataset with a subset (dictionary) of highlyinformative samples. Unfortunately, fast data-oblivious selection methods (e.g., uniformsampling) almost always discard useful information, while data-adaptive methods thatprovably construct an accurate dictionary, such as ridge leverage score (RLS) sampling,have a quadratic time/space cost.In this thesis we introduce a new single-pass streaming RLS sampling approach thatsequentially construct the dictionary, where each step compares a new sample only withthe current intermediate dictionary and not all past samples. We prove that the size ofall intermediate dictionaries scales only with the effective dimension of the dataset, andtherefore guarantee a per-step time and space complexity independent from the number ofsamples. This reduces the overall time required to construct provably accurate dictionariesfrom quadratic to near-linear, or even logarithmic when parallelized.Finally, for many non-parametric learning problems (e.g., K-PCA, graph SSL, online kernellearning) we we show that we can can use the generated dictionaries to compute approximatesolutions in near-linear that are both provably accurate and empirically competitive.Lire moins >
Lire la suite >The main advantage of non-parametric models is that the accuracy of the model (degreesof freedom) adapts to the number of samples. The main drawback is the so-called "curseof kernelization": to learn the model we must first compute a similarity matrix among allsamples, which requires quadratic space and time and is unfeasible for large datasets.Nonetheless the underlying effective dimension (effective d.o.f.) of the dataset is often muchsmaller than its size, and we can replace the dataset with a subset (dictionary) of highlyinformative samples. Unfortunately, fast data-oblivious selection methods (e.g., uniformsampling) almost always discard useful information, while data-adaptive methods thatprovably construct an accurate dictionary, such as ridge leverage score (RLS) sampling,have a quadratic time/space cost.In this thesis we introduce a new single-pass streaming RLS sampling approach thatsequentially construct the dictionary, where each step compares a new sample only withthe current intermediate dictionary and not all past samples. We prove that the size ofall intermediate dictionaries scales only with the effective dimension of the dataset, andtherefore guarantee a per-step time and space complexity independent from the number ofsamples. This reduces the overall time required to construct provably accurate dictionariesfrom quadratic to near-linear, or even logarithmic when parallelized.Finally, for many non-parametric learning problems (e.g., K-PCA, graph SSL, online kernellearning) we we show that we can can use the generated dictionaries to compute approximatesolutions in near-linear that are both provably accurate and empirically competitive.Lire moins >
Langue :
Anglais
Collections :
Source :
Fichiers
- https://tel.archives-ouvertes.fr/tel-01816904/document
- Accès libre
- Accéder au document
- https://tel.archives-ouvertes.fr/tel-01816904/document
- Accès libre
- Accéder au document
- https://tel.archives-ouvertes.fr/tel-01816904/document
- Accès libre
- Accéder au document
- https://tel.archives-ouvertes.fr/tel-01816904/document
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- main.pdf
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- main.pdf
- Accès libre
- Accéder au document