Clustering en ligne : le point de vue PAC-bayésien
Document type :
Pré-publication ou Document de travail
Title :
Clustering en ligne : le point de vue PAC-bayésien
Author(s) :
Li, Le [Auteur correspondant]
Laboratoire Angevin de Recherche en Mathématiques [LAREMA]
Guedj, Benjamin [Auteur]
MOdel for Data Analysis and Learning [MODAL]
Loustau, Sébastien [Auteur]
Laboratoire Angevin de Recherche en Mathématiques [LAREMA]
Laboratoire Angevin de Recherche en Mathématiques [LAREMA]
Guedj, Benjamin [Auteur]
MOdel for Data Analysis and Learning [MODAL]
Loustau, Sébastien [Auteur]
Laboratoire Angevin de Recherche en Mathématiques [LAREMA]
Keyword(s) :
Online clustering
PAC-Bayesian theory
Reversible Jump Markov Chain Monte Carlo
Sparsity regret bounds
PAC-Bayesian theory
Reversible Jump Markov Chain Monte Carlo
Sparsity regret bounds
HAL domain(s) :
Statistiques [stat]/Machine Learning [stat.ML]
Statistiques [stat]/Théorie [stat.TH]
Statistiques [stat]/Théorie [stat.TH]
French abstract :
Nous nous intéressons dans ce travail à la construction et à la mise en oeuvre d'une méthode de clustering en ligne. Face à des flux de données massives, le clustering est une gageure tant d'un point de vue théorique ...
Show more >Nous nous intéressons dans ce travail à la construction et à la mise en oeuvre d'une méthode de clustering en ligne. Face à des flux de données massives, le clustering est une gageure tant d'un point de vue théorique qu'algorithmique. Nous proposons un nouvel algorithme de clustering en ligne, reposant sur l'approche PAC-bayésienne. En particulier, le nombre de clusters est estimé dynamiquement (c'est-à-dire qu'il peut changer au cours du temps), et nous démontrons des bornes de regret parcimonieuses. De plus, un algorithme via RJMCMC, appelé Paco est présenté, et ses performances sur données simulées seront commentées. Mots-clés. Bornes de regret parcimonieuses, Clustering en ligne, Reversible Jump MCMC, Théorie PAC-bayésienne. Abstract. We address the online clustering problem. When faced with high frequency streams of data, clustering raises theoretical and algorithmic pitfalls. Working under a sparsity assumption, a new online clustering algorithm is introduced. Our procedure relies on the PAC-Bayesian approach, allowing for a dynamic (i.e., time-dependent) estimation of the number of clusters. Its theoretical merits are supported by sparsity regret bounds, and an RJMCMC-flavored implementation called Paco is proposed along with numerical experiments to assess its potential.Show less >
Show more >Nous nous intéressons dans ce travail à la construction et à la mise en oeuvre d'une méthode de clustering en ligne. Face à des flux de données massives, le clustering est une gageure tant d'un point de vue théorique qu'algorithmique. Nous proposons un nouvel algorithme de clustering en ligne, reposant sur l'approche PAC-bayésienne. En particulier, le nombre de clusters est estimé dynamiquement (c'est-à-dire qu'il peut changer au cours du temps), et nous démontrons des bornes de regret parcimonieuses. De plus, un algorithme via RJMCMC, appelé Paco est présenté, et ses performances sur données simulées seront commentées. Mots-clés. Bornes de regret parcimonieuses, Clustering en ligne, Reversible Jump MCMC, Théorie PAC-bayésienne. Abstract. We address the online clustering problem. When faced with high frequency streams of data, clustering raises theoretical and algorithmic pitfalls. Working under a sparsity assumption, a new online clustering algorithm is introduced. Our procedure relies on the PAC-Bayesian approach, allowing for a dynamic (i.e., time-dependent) estimation of the number of clusters. Its theoretical merits are supported by sparsity regret bounds, and an RJMCMC-flavored implementation called Paco is proposed along with numerical experiments to assess its potential.Show less >
Language :
Anglais
Collections :
Source :
Files
- document
- Open access
- Access the document
- Online_Clustering___JdS_2016%20%284%29.pdf
- Open access
- Access the document