Co-clustering de données textuelles et continues

Selosse, Margot; Jacques, Julien; Biernacki, Christophe

Type de document :

Communication dans un congrès avec actes

Titre :

Co-clustering de données textuelles et continues

Auteur(s) :

Selosse, Margot [Auteur]
Entrepôts, Représentation et Ingénierie des Connaissances [ERIC]
Jacques, Julien [Auteur]
Université de Lille, Sciences et Technologies
Biernacki, Christophe [Auteur]

MOdel for Data Analysis and Learning [MODAL]

Titre de la manifestation scientifique :

SFdS 2018 - 50èmes Journées de Statistique

Ville :

Saclay

Pays :

France

Date de début de la manifestation scientifique :

2018-05-28

Mot(s)-clé(s) :

données hétérogènes
modèle des blocs latents

Mot(s)-clé(s) en anglais :

Co-clustering

Discipline(s) HAL :

Mathématiques [math]/Statistiques [math.ST]

Résumé :

Le clustering est un outil essentiel pour l’analyse de données. C’est unemanière de résumer un jeu de données en formant des groupes homogènes d’observations(les clusters). Cependant, le phénomène «big-data »a fait croître ...
Lire la suite >Le clustering est un outil essentiel pour l’analyse de données. C’est unemanière de résumer un jeu de données en formant des groupes homogènes d’observations(les clusters). Cependant, le phénomène «big-data »a fait croître le nombre de variables,conduisant à l’émergence de jeux de données de grande dimension, parfois à un niveautel que les techniques de clustering ne sont plus toujours adaptées pour discerner desstructures. En effet, l’analyse d’un cluster repose généralement sur un représentant de cecluster (par exemple la moyenne). Néanmoins, ce dernier est lui-même décrit par un grandnombre de variables, ce qui rend difficile l’interprétation et hasardeuse l’estimation. Decette observation naît le besoin de «résumer »aussi les variables, ce que leur regroupementen clusters peut permettre, de façon symmétrique au regroupement classique des individusen clusters. Le co-clustering est alors une méthode candidate car elle réalise un clusteringsimultané des lignes et des colonnes. Dans le cas de l’analyse de données textuelles, etnotamment le clustering de document, le co-clustering est un thème largement étudiélors de ces dernières années. Cependant, la plupart des approches ne permettent pas deprendre en compte, en plus des données textuelles, d’autres variables. Le travail présentépropose une extension du modèle des blocs latents pour des jeux de données avec desvariables textuelles et continues.Lire moins >

Langue :

Français

Comité de lecture :

Oui

Audience :

Nationale

Vulgarisation :

Non

Collections :

Laboratoire Paul Painlevé - UMR 8524

Source :

Harvested from HAL

Fichiers

document
Accès libre
Accéder au document

sfds.pdf
Accès libre
Accéder au document

Co-clustering de données textuelles et continues BibTeX CSV Excel RIS

Fichiers

Co-clustering de données textuelles et continues

BibTeX

CSV

Excel

RIS