Co-clustering de données textuelles et continues
Document type :
Communication dans un congrès avec actes
Title :
Co-clustering de données textuelles et continues
Author(s) :
Selosse, Margot [Auteur]
Entrepôts, Représentation et Ingénierie des Connaissances [ERIC]
Jacques, Julien [Auteur]
Université de Lille, Sciences et Technologies
Biernacki, Christophe [Auteur]
MOdel for Data Analysis and Learning [MODAL]
Entrepôts, Représentation et Ingénierie des Connaissances [ERIC]
Jacques, Julien [Auteur]
Université de Lille, Sciences et Technologies
Biernacki, Christophe [Auteur]
MOdel for Data Analysis and Learning [MODAL]
Conference title :
SFdS 2018 - 50èmes Journées de Statistique
City :
Saclay
Country :
France
Start date of the conference :
2018-05-28
Keyword(s) :
données hétérogènes
modèle des blocs latents
modèle des blocs latents
English keyword(s) :
Co-clustering
HAL domain(s) :
Mathématiques [math]/Statistiques [math.ST]
French abstract :
Le clustering est un outil essentiel pour l’analyse de données. C’est unemanière de résumer un jeu de données en formant des groupes homogènes d’observations(les clusters). Cependant, le phénomène «big-data »a fait croître ...
Show more >Le clustering est un outil essentiel pour l’analyse de données. C’est unemanière de résumer un jeu de données en formant des groupes homogènes d’observations(les clusters). Cependant, le phénomène «big-data »a fait croître le nombre de variables,conduisant à l’émergence de jeux de données de grande dimension, parfois à un niveautel que les techniques de clustering ne sont plus toujours adaptées pour discerner desstructures. En effet, l’analyse d’un cluster repose généralement sur un représentant de cecluster (par exemple la moyenne). Néanmoins, ce dernier est lui-même décrit par un grandnombre de variables, ce qui rend difficile l’interprétation et hasardeuse l’estimation. Decette observation naît le besoin de «résumer »aussi les variables, ce que leur regroupementen clusters peut permettre, de façon symmétrique au regroupement classique des individusen clusters. Le co-clustering est alors une méthode candidate car elle réalise un clusteringsimultané des lignes et des colonnes. Dans le cas de l’analyse de données textuelles, etnotamment le clustering de document, le co-clustering est un thème largement étudiélors de ces dernières années. Cependant, la plupart des approches ne permettent pas deprendre en compte, en plus des données textuelles, d’autres variables. Le travail présentépropose une extension du modèle des blocs latents pour des jeux de données avec desvariables textuelles et continues.Show less >
Show more >Le clustering est un outil essentiel pour l’analyse de données. C’est unemanière de résumer un jeu de données en formant des groupes homogènes d’observations(les clusters). Cependant, le phénomène «big-data »a fait croître le nombre de variables,conduisant à l’émergence de jeux de données de grande dimension, parfois à un niveautel que les techniques de clustering ne sont plus toujours adaptées pour discerner desstructures. En effet, l’analyse d’un cluster repose généralement sur un représentant de cecluster (par exemple la moyenne). Néanmoins, ce dernier est lui-même décrit par un grandnombre de variables, ce qui rend difficile l’interprétation et hasardeuse l’estimation. Decette observation naît le besoin de «résumer »aussi les variables, ce que leur regroupementen clusters peut permettre, de façon symmétrique au regroupement classique des individusen clusters. Le co-clustering est alors une méthode candidate car elle réalise un clusteringsimultané des lignes et des colonnes. Dans le cas de l’analyse de données textuelles, etnotamment le clustering de document, le co-clustering est un thème largement étudiélors de ces dernières années. Cependant, la plupart des approches ne permettent pas deprendre en compte, en plus des données textuelles, d’autres variables. Le travail présentépropose une extension du modèle des blocs latents pour des jeux de données avec desvariables textuelles et continues.Show less >
Language :
Français
Peer reviewed article :
Oui
Audience :
Nationale
Popular science :
Non
Collections :
Source :
Files
- document
- Open access
- Access the document
- sfds.pdf
- Open access
- Access the document