Classification non supervisée : évolution ...
Document type :
Autre communication scientifique (congrès sans actes - poster - séminaire...): Communication dans un congrès avec actes: Conférence invitée
Title :
Classification non supervisée : évolution des méthodes pour répondre aux nouveaux défis
Author(s) :
Biernacki, C [Auteur]
MOdel for Data Analysis and Learning [MODAL]
Laboratoire Paul Painlevé - UMR 8524 [LPP]
MOdel for Data Analysis and Learning [MODAL]
Laboratoire Paul Painlevé - UMR 8524 [LPP]
Conference title :
Journée thématique Clustering
Conference organizers(s) :
Orange Labs
City :
Issy Les Moulineaux
Country :
France
Start date of the conference :
2015-10-20
Publication date :
2015-10-20
HAL domain(s) :
Statistiques [stat]/Méthodologie [stat.ME]
French abstract :
À l'ère dite du "Big Data", les données manipulées ont fortement changées, typiquement par leur volumétrie (nombreux individus et/ou variables) ou bien par leur nature (données mixant le qualitatif et le quantitatif, données ...
Show more >À l'ère dite du "Big Data", les données manipulées ont fortement changées, typiquement par leur volumétrie (nombreux individus et/ou variables) ou bien par leur nature (données mixant le qualitatif et le quantitatif, données indexées par le temps, données incertaines...). Cependant, les questions auxquelles les praticiens cherchent à répondre sont restées étonnamment invariables au cours du temps, comme l'exploration des données. Dans ce cadre, les méthodes de classification non supervisée ("clustering" en Anglais) visent à identifier des structures dites cachées et ainsi potentiellement fortes en valeur ajoutée. Les défis sont alors essentiellement d'adapter les méthodes existantes aux nouveaux types de données, en respectant des contraintes d'efficacité (typiquement qualité des résultats et temps de traitement). Dans cet exposé introductif à la journée, nous passons en revue l'évolution des méthodes de clustering en regard de l'évolution des types de données et des contraintes de traitement, que nous regroupons sous la terminologie "défis". Une tendance lourde qui ressort de cette évolution est une formalisation probabiliste de techniques plus anciennes afin de les adapter plus facilement au cadre de données représentées dans ces nouveaux espaces plus complexes. De cette façon aussi, le cadre bien construit de la statistique mathématique permet de reformuler rigoureusement de nombreuses questions standard, comme les incertitudes d'appartenance à un groupe ou encore comme le nombre de groupes, en termes techniques précis que sont l'estimation et le choix de modèles, avec les algorithmes associésShow less >
Show more >À l'ère dite du "Big Data", les données manipulées ont fortement changées, typiquement par leur volumétrie (nombreux individus et/ou variables) ou bien par leur nature (données mixant le qualitatif et le quantitatif, données indexées par le temps, données incertaines...). Cependant, les questions auxquelles les praticiens cherchent à répondre sont restées étonnamment invariables au cours du temps, comme l'exploration des données. Dans ce cadre, les méthodes de classification non supervisée ("clustering" en Anglais) visent à identifier des structures dites cachées et ainsi potentiellement fortes en valeur ajoutée. Les défis sont alors essentiellement d'adapter les méthodes existantes aux nouveaux types de données, en respectant des contraintes d'efficacité (typiquement qualité des résultats et temps de traitement). Dans cet exposé introductif à la journée, nous passons en revue l'évolution des méthodes de clustering en regard de l'évolution des types de données et des contraintes de traitement, que nous regroupons sous la terminologie "défis". Une tendance lourde qui ressort de cette évolution est une formalisation probabiliste de techniques plus anciennes afin de les adapter plus facilement au cadre de données représentées dans ces nouveaux espaces plus complexes. De cette façon aussi, le cadre bien construit de la statistique mathématique permet de reformuler rigoureusement de nombreuses questions standard, comme les incertitudes d'appartenance à un groupe ou encore comme le nombre de groupes, en termes techniques précis que sont l'estimation et le choix de modèles, avec les algorithmes associésShow less >
Language :
Anglais
Peer reviewed article :
Oui
Audience :
Internationale
Popular science :
Non
Collections :
Source :
Files
- slides_biernacki.pdf
- Open access
- Access the document