A predictive deviance criterion for selecting a generative model in semi-supervised classification

Vandewalle, Vincent; Biernacki, Christophe; Celeux, Gilles; Govaert, Gérard

Document type :

Article dans une revue scientifique: Article original

DOI :

10.1016/j.csda.2013.02.010

Title :

A predictive deviance criterion for selecting a generative model in semi-supervised classification

Author(s) :

Vandewalle, Vincent [Auteur]

Laboratoire Paul Painlevé - UMR 8524 [LPP]
Model selection in statistical learning [SELECT]
Biernacki, Christophe [Auteur]
Laboratoire Paul Painlevé - UMR 8524 [LPP]
Celeux, Gilles [Auteur]
Model selection in statistical learning [SELECT]
Govaert, Gérard [Auteur]
Heuristique et Diagnostic des Systèmes Complexes [Compiègne] [Heudiasyc]

Journal title :

Computational Statistics and Data Analysis

Pages :

220-236

Publisher :

Elsevier

Publication date :

2013

ISSN :

0167-9473

English keyword(s) :

EM algorithm
Cross-validated error rate
Information criteria
AIC
BIC
BEC
Generative models
Gaussian mixture models
Maximum likelihood

HAL domain(s) :

Mathématiques [math]/Statistiques [math.ST]
Statistiques [stat]/Théorie [stat.TH]

French abstract :

La classification semi-supervisée donne l'opportunité d'améliorer les classifieurs génératifs par la prise en compte de l'information des points non étiquetés lorsque ceux-ci sont beaucoup plus nombreux que les points ...
Show more >La classification semi-supervisée donne l'opportunité d'améliorer les classifieurs génératifs par la prise en compte de l'information des points non étiquetés lorsque ceux-ci sont beaucoup plus nombreux que les points étiquetés. Cet article a trait à la sélection d'un modèle de classification génératif dans un contexte semi-supervisé. Nous proposons un crit\ère de déviance prédictive AIC$_{cond}$ pour choisir un modèle génératif parcimonieux de classification. Au contraire des critères classiques d'information comme AIC ou BIC, AIC$_{cond}$ se focalise sur le but de classification en mesurant le pouvoir prédictif d'un modèle génératif par sa déviance prédictive. Par ailleurs, il évite les problèmes de temps de calcul inhérents à la validation croisée à cause de l'emploi répété de l'algorithme EM. Nous prouvons des propriétés de convergence du critère AIC$_{cond}$ qui assurent sa supériorité vis-à-vis du critère d'entropie bayésienne BEC dont le but est analogue. De plus, des illustrations numériques sur des données réelles et simulées mettent en lumière un comportement prometteur de AIC$_{cond}$ par rapport aux critères mentionnés pour la sélection de variables et de modèles génératifs de classification à partir d'échantillons semi-supervisés.Show less >

English abstract : [en]

Semi-supervised classification can be hoped to improve generative classifiers by taking profit of the information provided by the unlabeled data points, especially when there are far more unlabeled data than labeled data. ...
Show more >Semi-supervised classification can be hoped to improve generative classifiers by taking profit of the information provided by the unlabeled data points, especially when there are far more unlabeled data than labeled data. This paper is concerned with selecting a generative classification model from both unlabeled and labeled data. We propose a predictive deviance criterion AIC$_{cond}$ aiming to select a parsimonious and relevant generative classifier in the semi-supervised context. Contrary to standard information criteria as AIC and BIC, AIC$_{cond}$ is focusing to the classification task since it aims to measure the predictive power of a generative model by approximating its predictive deviance. On an other hand, it avoids the computational trouble encountered with cross validation criteria due to the repeated use of the EM algorithm. AIC$_{cond}$ is proved to have consistency properties ensuring its parsimony compared to the Bayesian Entropy Criterion (BEC) which has a similar focus than AIC$_{cond}$. In addition, numerical experiments on both simulated and real data sets highlight an encouraging behavior of AIC$_{cond}$ for variable and model selection in comparison to the other mentioned criteria.Show less >

Language :

Anglais

Peer reviewed article :

Oui

Audience :

Internationale

Popular science :

Non

Collections :

Laboratoire Paul Painlevé - UMR 8524

Source :

Harvested from HAL

Files

document
Open access
Access the document

RR-7377.pdf
Open access
Access the document

fulltext.pdf
Open access
Access the document

A predictive deviance criterion for selecting ... BibTeX CSV Excel RIS

Files

A predictive deviance criterion for selecting ...

BibTeX

CSV

Excel

RIS