Le modèle des blocs latents, une méthode ...
Document type :
Autre communication scientifique (congrès sans actes - poster - séminaire...): Communication dans un congrès sans actes
Permalink :
Title :
Le modèle des blocs latents, une méthode régularisée pour la classification en grande dimension
Author(s) :
Conference title :
JdS 2019 - 51èmes Journées de Statistique de la SFdS
City :
Nancy
Country :
France
Start date of the conference :
2019-06-03
Keyword(s) :
High dimension
Clustering
Co-clustering
Latent block models
Clustering
Co-clustering
Latent block models
HAL domain(s) :
Mathématiques [math]/Statistiques [math.ST]
French abstract :
Les modèles de mélange sont connus pourêtre un outil efficace de classification non supervisée quand la dimension des observations est faible, maiséchouent en grande dimensionà cause d'un manque de parcimonie. Certaines ...
Show more >Les modèles de mélange sont connus pourêtre un outil efficace de classification non supervisée quand la dimension des observations est faible, maiséchouent en grande dimensionà cause d'un manque de parcimonie. Certaines tentatives pour pren-dre en compte la redondance ou la pertinence des variables se heurtentà des problèmes de complexité explosive. Nous recommandons d'utiliser le modèle des blocs latents, un modèle probabiliste de classification croisée simultanée des individus et des variables, pour classifier des individus en grande dimension. Nous illustrons de façon empirique le com-promis biais-variance de la stratégie de classification croisée dans des scénarii en grande dimension comportant des caractéristiques de redondance et de non pertinence et nous montrons son effet régularisateur sur la classification simple.Show less >
Show more >Les modèles de mélange sont connus pourêtre un outil efficace de classification non supervisée quand la dimension des observations est faible, maiséchouent en grande dimensionà cause d'un manque de parcimonie. Certaines tentatives pour pren-dre en compte la redondance ou la pertinence des variables se heurtentà des problèmes de complexité explosive. Nous recommandons d'utiliser le modèle des blocs latents, un modèle probabiliste de classification croisée simultanée des individus et des variables, pour classifier des individus en grande dimension. Nous illustrons de façon empirique le com-promis biais-variance de la stratégie de classification croisée dans des scénarii en grande dimension comportant des caractéristiques de redondance et de non pertinence et nous montrons son effet régularisateur sur la classification simple.Show less >
English abstract : [en]
Standard model-based clustering is known to be very efficient for low dimensional data sets, but it fails for properly addressing high dimension (HD) ones, where it suffers from both statistical and computational drawbacks. ...
Show more >Standard model-based clustering is known to be very efficient for low dimensional data sets, but it fails for properly addressing high dimension (HD) ones, where it suffers from both statistical and computational drawbacks. In order to counterbalance this curse of dimensionality, some proposals have been made to take into account redundancy and features utility, but related models are not suitable for too many variables. We advocate that the latent bloc model, a probabilistic model for co-clustering, is of particular interest to perform HD clustering of individuals even if it is not its primary function. We illustrate in an empirical manner the trade-off bias-variance of the co-clustering strategy in scenarii involving HD fundaments (correlated variables, irrelevant variables) and show the ability of co-clustering to outperform simple mixture row-clusteringShow less >
Show more >Standard model-based clustering is known to be very efficient for low dimensional data sets, but it fails for properly addressing high dimension (HD) ones, where it suffers from both statistical and computational drawbacks. In order to counterbalance this curse of dimensionality, some proposals have been made to take into account redundancy and features utility, but related models are not suitable for too many variables. We advocate that the latent bloc model, a probabilistic model for co-clustering, is of particular interest to perform HD clustering of individuals even if it is not its primary function. We illustrate in an empirical manner the trade-off bias-variance of the co-clustering strategy in scenarii involving HD fundaments (correlated variables, irrelevant variables) and show the ability of co-clustering to outperform simple mixture row-clusteringShow less >
Language :
Français
Audience :
Internationale
Popular science :
Non
Submission date :
2020-06-08T14:11:39Z
2020-06-10T12:08:57Z
2020-06-10T12:08:57Z
Files
- documen
- Open access
- Access the document