Le modèle des blocs latents, une méthode ...
Type de document :
Autre communication scientifique (congrès sans actes - poster - séminaire...): Communication dans un congrès sans actes
URL permanente :
Titre :
Le modèle des blocs latents, une méthode régularisée pour la classification en grande dimension
Auteur(s) :
Titre de la manifestation scientifique :
JdS 2019 - 51èmes Journées de Statistique de la SFdS
Ville :
Nancy
Pays :
France
Date de début de la manifestation scientifique :
2019-06-03
Mot(s)-clé(s) :
High dimension
Clustering
Co-clustering
Latent block models
Clustering
Co-clustering
Latent block models
Discipline(s) HAL :
Mathématiques [math]/Statistiques [math.ST]
Résumé :
Les modèles de mélange sont connus pourêtre un outil efficace de classification non supervisée quand la dimension des observations est faible, maiséchouent en grande dimensionà cause d'un manque de parcimonie. Certaines ...
Lire la suite >Les modèles de mélange sont connus pourêtre un outil efficace de classification non supervisée quand la dimension des observations est faible, maiséchouent en grande dimensionà cause d'un manque de parcimonie. Certaines tentatives pour pren-dre en compte la redondance ou la pertinence des variables se heurtentà des problèmes de complexité explosive. Nous recommandons d'utiliser le modèle des blocs latents, un modèle probabiliste de classification croisée simultanée des individus et des variables, pour classifier des individus en grande dimension. Nous illustrons de façon empirique le com-promis biais-variance de la stratégie de classification croisée dans des scénarii en grande dimension comportant des caractéristiques de redondance et de non pertinence et nous montrons son effet régularisateur sur la classification simple.Lire moins >
Lire la suite >Les modèles de mélange sont connus pourêtre un outil efficace de classification non supervisée quand la dimension des observations est faible, maiséchouent en grande dimensionà cause d'un manque de parcimonie. Certaines tentatives pour pren-dre en compte la redondance ou la pertinence des variables se heurtentà des problèmes de complexité explosive. Nous recommandons d'utiliser le modèle des blocs latents, un modèle probabiliste de classification croisée simultanée des individus et des variables, pour classifier des individus en grande dimension. Nous illustrons de façon empirique le com-promis biais-variance de la stratégie de classification croisée dans des scénarii en grande dimension comportant des caractéristiques de redondance et de non pertinence et nous montrons son effet régularisateur sur la classification simple.Lire moins >
Résumé en anglais : [en]
Standard model-based clustering is known to be very efficient for low dimensional data sets, but it fails for properly addressing high dimension (HD) ones, where it suffers from both statistical and computational drawbacks. ...
Lire la suite >Standard model-based clustering is known to be very efficient for low dimensional data sets, but it fails for properly addressing high dimension (HD) ones, where it suffers from both statistical and computational drawbacks. In order to counterbalance this curse of dimensionality, some proposals have been made to take into account redundancy and features utility, but related models are not suitable for too many variables. We advocate that the latent bloc model, a probabilistic model for co-clustering, is of particular interest to perform HD clustering of individuals even if it is not its primary function. We illustrate in an empirical manner the trade-off bias-variance of the co-clustering strategy in scenarii involving HD fundaments (correlated variables, irrelevant variables) and show the ability of co-clustering to outperform simple mixture row-clusteringLire moins >
Lire la suite >Standard model-based clustering is known to be very efficient for low dimensional data sets, but it fails for properly addressing high dimension (HD) ones, where it suffers from both statistical and computational drawbacks. In order to counterbalance this curse of dimensionality, some proposals have been made to take into account redundancy and features utility, but related models are not suitable for too many variables. We advocate that the latent bloc model, a probabilistic model for co-clustering, is of particular interest to perform HD clustering of individuals even if it is not its primary function. We illustrate in an empirical manner the trade-off bias-variance of the co-clustering strategy in scenarii involving HD fundaments (correlated variables, irrelevant variables) and show the ability of co-clustering to outperform simple mixture row-clusteringLire moins >
Langue :
Français
Audience :
Internationale
Vulgarisation :
Non
Date de dépôt :
2020-06-08T14:11:39Z
2020-06-10T12:08:57Z
2020-06-10T12:08:57Z
Fichiers
- documen
- Accès libre
- Accéder au document