Co-clustering de données textuelles et continues
Type de document :
Communication dans un congrès avec actes
Titre :
Co-clustering de données textuelles et continues
Auteur(s) :
Selosse, Margot [Auteur]
Entrepôts, Représentation et Ingénierie des Connaissances [ERIC]
Jacques, Julien [Auteur]
Université de Lille, Sciences et Technologies
Biernacki, Christophe [Auteur]
MOdel for Data Analysis and Learning [MODAL]
Entrepôts, Représentation et Ingénierie des Connaissances [ERIC]
Jacques, Julien [Auteur]
Université de Lille, Sciences et Technologies
Biernacki, Christophe [Auteur]
MOdel for Data Analysis and Learning [MODAL]
Titre de la manifestation scientifique :
SFdS 2018 - 50èmes Journées de Statistique
Ville :
Saclay
Pays :
France
Date de début de la manifestation scientifique :
2018-05-28
Mot(s)-clé(s) :
données hétérogènes
modèle des blocs latents
modèle des blocs latents
Mot(s)-clé(s) en anglais :
Co-clustering
Discipline(s) HAL :
Mathématiques [math]/Statistiques [math.ST]
Résumé :
Le clustering est un outil essentiel pour l’analyse de données. C’est unemanière de résumer un jeu de données en formant des groupes homogènes d’observations(les clusters). Cependant, le phénomène «big-data »a fait croître ...
Lire la suite >Le clustering est un outil essentiel pour l’analyse de données. C’est unemanière de résumer un jeu de données en formant des groupes homogènes d’observations(les clusters). Cependant, le phénomène «big-data »a fait croître le nombre de variables,conduisant à l’émergence de jeux de données de grande dimension, parfois à un niveautel que les techniques de clustering ne sont plus toujours adaptées pour discerner desstructures. En effet, l’analyse d’un cluster repose généralement sur un représentant de cecluster (par exemple la moyenne). Néanmoins, ce dernier est lui-même décrit par un grandnombre de variables, ce qui rend difficile l’interprétation et hasardeuse l’estimation. Decette observation naît le besoin de «résumer »aussi les variables, ce que leur regroupementen clusters peut permettre, de façon symmétrique au regroupement classique des individusen clusters. Le co-clustering est alors une méthode candidate car elle réalise un clusteringsimultané des lignes et des colonnes. Dans le cas de l’analyse de données textuelles, etnotamment le clustering de document, le co-clustering est un thème largement étudiélors de ces dernières années. Cependant, la plupart des approches ne permettent pas deprendre en compte, en plus des données textuelles, d’autres variables. Le travail présentépropose une extension du modèle des blocs latents pour des jeux de données avec desvariables textuelles et continues.Lire moins >
Lire la suite >Le clustering est un outil essentiel pour l’analyse de données. C’est unemanière de résumer un jeu de données en formant des groupes homogènes d’observations(les clusters). Cependant, le phénomène «big-data »a fait croître le nombre de variables,conduisant à l’émergence de jeux de données de grande dimension, parfois à un niveautel que les techniques de clustering ne sont plus toujours adaptées pour discerner desstructures. En effet, l’analyse d’un cluster repose généralement sur un représentant de cecluster (par exemple la moyenne). Néanmoins, ce dernier est lui-même décrit par un grandnombre de variables, ce qui rend difficile l’interprétation et hasardeuse l’estimation. Decette observation naît le besoin de «résumer »aussi les variables, ce que leur regroupementen clusters peut permettre, de façon symmétrique au regroupement classique des individusen clusters. Le co-clustering est alors une méthode candidate car elle réalise un clusteringsimultané des lignes et des colonnes. Dans le cas de l’analyse de données textuelles, etnotamment le clustering de document, le co-clustering est un thème largement étudiélors de ces dernières années. Cependant, la plupart des approches ne permettent pas deprendre en compte, en plus des données textuelles, d’autres variables. Le travail présentépropose une extension du modèle des blocs latents pour des jeux de données avec desvariables textuelles et continues.Lire moins >
Langue :
Français
Comité de lecture :
Oui
Audience :
Nationale
Vulgarisation :
Non
Collections :
Source :
Fichiers
- document
- Accès libre
- Accéder au document
- sfds.pdf
- Accès libre
- Accéder au document