Model-based clustering for conditionally ...
Type de document :
Article dans une revue scientifique
DOI :
URL permanente :
Titre :
Model-based clustering for conditionally correlated categorical data
Auteur(s) :
Marbac, Matthieu [Auteur]
Biernacki, Christophe [Auteur]
Vandewalle, Vincent [Auteur]
Evaluation des technologies de santé et des pratiques médicales - ULR 2694 [METRICS]
Biernacki, Christophe [Auteur]
Vandewalle, Vincent [Auteur]
Evaluation des technologies de santé et des pratiques médicales - ULR 2694 [METRICS]
Titre de la revue :
Journal of Classification
Numéro :
2
Pagination :
145-175
Éditeur :
Springer Verlag
Date de publication :
2015
ISSN :
0176-4268
Mot(s)-clé(s) :
Categorical data
Model selection
Gibbs sampler
Correlation
Mixture model
Gibbs sampler
Clustering
EM algorithm
Model selection
Gibbs sampler
Correlation
Mixture model
Gibbs sampler
Clustering
EM algorithm
Discipline(s) HAL :
Mathématiques [math]/Statistiques [math.ST]
Résumé :
Nous proposons une extension du modèle des classes latentes pour la classification non supervisée de données catégorielles conditionnellement corrélées. Dans ce modèle, les variables sont regroupées en blocs inter-indépendants ...
Lire la suite >Nous proposons une extension du modèle des classes latentes pour la classification non supervisée de données catégorielles conditionnellement corrélées. Dans ce modèle, les variables sont regroupées en blocs inter-indépendants et intra-dépendants dans le but de prendre en compte les principales corrélations intra-classes. La dépendance entre les variables d'un même bloc est prise en compte par un mélange de deux distributions extrêmes, qui sont celles d'indépendance et de dépendance maximale. Dans le cas de données conditionnellement corrélées, on s'attend à ce que cette approche réduise les biais induits par le modèle des classes latentes et qu'il produise un modèle de dépendance facilement interprétable nécessitant peu de paramètres supplémentaires. L'estimation de ces derniers par maximum de vraisemblance est effectuée par un algorithme EM alors qu'un algorithme de Gibbs, permettant de résoudre les problèmes combinatoires dus à la recherche des blocs, est utilisé pour la sélection de modèle. Des applications sur des données sociologiques et biologiques permettent de mettre en avant l'intérêt du modèle proposé. Leurs résultats confortent l'idée que celui-ci est facilement interprétable et qu'il réduit les biais du modèle des classes latentes dus à l'hypothèse d'indépendance conditionnelle.Lire moins >
Lire la suite >Nous proposons une extension du modèle des classes latentes pour la classification non supervisée de données catégorielles conditionnellement corrélées. Dans ce modèle, les variables sont regroupées en blocs inter-indépendants et intra-dépendants dans le but de prendre en compte les principales corrélations intra-classes. La dépendance entre les variables d'un même bloc est prise en compte par un mélange de deux distributions extrêmes, qui sont celles d'indépendance et de dépendance maximale. Dans le cas de données conditionnellement corrélées, on s'attend à ce que cette approche réduise les biais induits par le modèle des classes latentes et qu'il produise un modèle de dépendance facilement interprétable nécessitant peu de paramètres supplémentaires. L'estimation de ces derniers par maximum de vraisemblance est effectuée par un algorithme EM alors qu'un algorithme de Gibbs, permettant de résoudre les problèmes combinatoires dus à la recherche des blocs, est utilisé pour la sélection de modèle. Des applications sur des données sociologiques et biologiques permettent de mettre en avant l'intérêt du modèle proposé. Leurs résultats confortent l'idée que celui-ci est facilement interprétable et qu'il réduit les biais du modèle des classes latentes dus à l'hypothèse d'indépendance conditionnelle.Lire moins >
Résumé en anglais : [en]
An extension of the latent class model is presented for clustering categorical data by relaxing the classical ''class conditional independence assumption'' of variables. This model consists in grouping the variables into ...
Lire la suite >An extension of the latent class model is presented for clustering categorical data by relaxing the classical ''class conditional independence assumption'' of variables. This model consists in grouping the variables into inter-independent and intra-dependent blocks, in order to consider the main intra-class correlations. The dependency between variables grouped inside the same block of a class is taken into account by mixing two extreme distributions, which are respectively the independence and the maximum dependency. When the variables are dependent given the class, this approach is expected to reduce the biases of the latent class model. Indeed, it produces a meaningful dependency model with only a few additional parameters. The parameters are estimated, by maximum likelihood, by means of an EM algorithm. Moreover, a Gibbs sampler is used for model selection in order to overcome the computational intractability of the combinatorial problems involved by the block structure search. Two applications on medical and biological data sets show the relevance of this new model. The results strengthen the view that this model is meaningful and that it reduces the biases induced by the conditional independence assumption of the latent class model.Lire moins >
Lire la suite >An extension of the latent class model is presented for clustering categorical data by relaxing the classical ''class conditional independence assumption'' of variables. This model consists in grouping the variables into inter-independent and intra-dependent blocks, in order to consider the main intra-class correlations. The dependency between variables grouped inside the same block of a class is taken into account by mixing two extreme distributions, which are respectively the independence and the maximum dependency. When the variables are dependent given the class, this approach is expected to reduce the biases of the latent class model. Indeed, it produces a meaningful dependency model with only a few additional parameters. The parameters are estimated, by maximum likelihood, by means of an EM algorithm. Moreover, a Gibbs sampler is used for model selection in order to overcome the computational intractability of the combinatorial problems involved by the block structure search. Two applications on medical and biological data sets show the relevance of this new model. The results strengthen the view that this model is meaningful and that it reduces the biases induced by the conditional independence assumption of the latent class model.Lire moins >
Langue :
Anglais
Audience :
Internationale
Vulgarisation :
Non
Établissement(s) :
CHU Lille
Université de Lille
Université de Lille
Date de dépôt :
2020-06-08T14:10:53Z