A predictive deviance criterion for selecting ...
Type de document :
Article dans une revue scientifique: Article original
Titre :
A predictive deviance criterion for selecting a generative model in semi-supervised classification
Auteur(s) :
Vandewalle, Vincent [Auteur]
Laboratoire Paul Painlevé - UMR 8524 [LPP]
Model selection in statistical learning [SELECT]
Biernacki, Christophe [Auteur]
Laboratoire Paul Painlevé - UMR 8524 [LPP]
Celeux, Gilles [Auteur]
Model selection in statistical learning [SELECT]
Govaert, Gérard [Auteur]
Heuristique et Diagnostic des Systèmes Complexes [Compiègne] [Heudiasyc]

Laboratoire Paul Painlevé - UMR 8524 [LPP]
Model selection in statistical learning [SELECT]
Biernacki, Christophe [Auteur]
Laboratoire Paul Painlevé - UMR 8524 [LPP]
Celeux, Gilles [Auteur]
Model selection in statistical learning [SELECT]
Govaert, Gérard [Auteur]
Heuristique et Diagnostic des Systèmes Complexes [Compiègne] [Heudiasyc]
Titre de la revue :
Computational Statistics and Data Analysis
Pagination :
220-236
Éditeur :
Elsevier
Date de publication :
2013
ISSN :
0167-9473
Mot(s)-clé(s) en anglais :
EM algorithm
Cross-validated error rate
Information criteria
AIC
BIC
BEC
Generative models
Gaussian mixture models
Maximum likelihood
Cross-validated error rate
Information criteria
AIC
BIC
BEC
Generative models
Gaussian mixture models
Maximum likelihood
Discipline(s) HAL :
Mathématiques [math]/Statistiques [math.ST]
Statistiques [stat]/Théorie [stat.TH]
Statistiques [stat]/Théorie [stat.TH]
Résumé :
La classification semi-supervisée donne l'opportunité d'améliorer les classifieurs génératifs par la prise en compte de l'information des points non étiquetés lorsque ceux-ci sont beaucoup plus nombreux que les points ...
Lire la suite >La classification semi-supervisée donne l'opportunité d'améliorer les classifieurs génératifs par la prise en compte de l'information des points non étiquetés lorsque ceux-ci sont beaucoup plus nombreux que les points étiquetés. Cet article a trait à la sélection d'un modèle de classification génératif dans un contexte semi-supervisé. Nous proposons un crit\ère de déviance prédictive AIC$_{cond}$ pour choisir un modèle génératif parcimonieux de classification. Au contraire des critères classiques d'information comme AIC ou BIC, AIC$_{cond}$ se focalise sur le but de classification en mesurant le pouvoir prédictif d'un modèle génératif par sa déviance prédictive. Par ailleurs, il évite les problèmes de temps de calcul inhérents à la validation croisée à cause de l'emploi répété de l'algorithme EM. Nous prouvons des propriétés de convergence du critère AIC$_{cond}$ qui assurent sa supériorité vis-à-vis du critère d'entropie bayésienne BEC dont le but est analogue. De plus, des illustrations numériques sur des données réelles et simulées mettent en lumière un comportement prometteur de AIC$_{cond}$ par rapport aux critères mentionnés pour la sélection de variables et de modèles génératifs de classification à partir d'échantillons semi-supervisés.Lire moins >
Lire la suite >La classification semi-supervisée donne l'opportunité d'améliorer les classifieurs génératifs par la prise en compte de l'information des points non étiquetés lorsque ceux-ci sont beaucoup plus nombreux que les points étiquetés. Cet article a trait à la sélection d'un modèle de classification génératif dans un contexte semi-supervisé. Nous proposons un crit\ère de déviance prédictive AIC$_{cond}$ pour choisir un modèle génératif parcimonieux de classification. Au contraire des critères classiques d'information comme AIC ou BIC, AIC$_{cond}$ se focalise sur le but de classification en mesurant le pouvoir prédictif d'un modèle génératif par sa déviance prédictive. Par ailleurs, il évite les problèmes de temps de calcul inhérents à la validation croisée à cause de l'emploi répété de l'algorithme EM. Nous prouvons des propriétés de convergence du critère AIC$_{cond}$ qui assurent sa supériorité vis-à-vis du critère d'entropie bayésienne BEC dont le but est analogue. De plus, des illustrations numériques sur des données réelles et simulées mettent en lumière un comportement prometteur de AIC$_{cond}$ par rapport aux critères mentionnés pour la sélection de variables et de modèles génératifs de classification à partir d'échantillons semi-supervisés.Lire moins >
Résumé en anglais : [en]
Semi-supervised classification can be hoped to improve generative classifiers by taking profit of the information provided by the unlabeled data points, especially when there are far more unlabeled data than labeled data. ...
Lire la suite >Semi-supervised classification can be hoped to improve generative classifiers by taking profit of the information provided by the unlabeled data points, especially when there are far more unlabeled data than labeled data. This paper is concerned with selecting a generative classification model from both unlabeled and labeled data. We propose a predictive deviance criterion AIC$_{cond}$ aiming to select a parsimonious and relevant generative classifier in the semi-supervised context. Contrary to standard information criteria as AIC and BIC, AIC$_{cond}$ is focusing to the classification task since it aims to measure the predictive power of a generative model by approximating its predictive deviance. On an other hand, it avoids the computational trouble encountered with cross validation criteria due to the repeated use of the EM algorithm. AIC$_{cond}$ is proved to have consistency properties ensuring its parsimony compared to the Bayesian Entropy Criterion (BEC) which has a similar focus than AIC$_{cond}$. In addition, numerical experiments on both simulated and real data sets highlight an encouraging behavior of AIC$_{cond}$ for variable and model selection in comparison to the other mentioned criteria.Lire moins >
Lire la suite >Semi-supervised classification can be hoped to improve generative classifiers by taking profit of the information provided by the unlabeled data points, especially when there are far more unlabeled data than labeled data. This paper is concerned with selecting a generative classification model from both unlabeled and labeled data. We propose a predictive deviance criterion AIC$_{cond}$ aiming to select a parsimonious and relevant generative classifier in the semi-supervised context. Contrary to standard information criteria as AIC and BIC, AIC$_{cond}$ is focusing to the classification task since it aims to measure the predictive power of a generative model by approximating its predictive deviance. On an other hand, it avoids the computational trouble encountered with cross validation criteria due to the repeated use of the EM algorithm. AIC$_{cond}$ is proved to have consistency properties ensuring its parsimony compared to the Bayesian Entropy Criterion (BEC) which has a similar focus than AIC$_{cond}$. In addition, numerical experiments on both simulated and real data sets highlight an encouraging behavior of AIC$_{cond}$ for variable and model selection in comparison to the other mentioned criteria.Lire moins >
Langue :
Anglais
Comité de lecture :
Oui
Audience :
Internationale
Vulgarisation :
Non
Collections :
Source :
Fichiers
- document
- Accès libre
- Accéder au document
- RR-7377.pdf
- Accès libre
- Accéder au document
- fulltext.pdf
- Accès libre
- Accéder au document