Classification de variables en régression linéaire
Type de document :
Article dans une revue scientifique: Article original
Titre :
Classification de variables en régression linéaire
Auteur(s) :
Yengo, Loïc [Auteur]
Metabolic functional (epi)genomics and molecular mechanisms involved in type 2 diabetes and related diseases - UMR 8199 - UMR 1283 [EGENODIA (GI3M)]
MOdel for Data Analysis and Learning [MODAL]
Jacques, Julien [Auteur]
MOdel for Data Analysis and Learning [MODAL]
Biernacki, Christophe [Auteur]
MOdel for Data Analysis and Learning [MODAL]
Metabolic functional (epi)genomics and molecular mechanisms involved in type 2 diabetes and related diseases - UMR 8199 - UMR 1283 [EGENODIA (GI3M)]
MOdel for Data Analysis and Learning [MODAL]
Jacques, Julien [Auteur]
MOdel for Data Analysis and Learning [MODAL]
Biernacki, Christophe [Auteur]
MOdel for Data Analysis and Learning [MODAL]
Titre de la revue :
Journal de la Société Française de Statistique
Numéro spécial : analyse des données en grande dimension
Numéro spécial : analyse des données en grande dimension
Pagination :
38-56
Éditeur :
Société Française de Statistique et Société Mathématique de France
Date de publication :
2014
ISSN :
1962-5197
Mot(s)-clé(s) :
Réduction de la dimension
Régression linéaire
Classification de variables
Régression linéaire
Classification de variables
Mot(s)-clé(s) en anglais :
Variable clustering
Dimension reduction
Linear regression
Dimension reduction
Linear regression
Discipline(s) HAL :
Mathématiques [math]/Statistiques [math.ST]
Statistiques [stat]/Théorie [stat.TH]
Statistiques [stat]/Théorie [stat.TH]
Résumé :
Les trois dernières décennies ont vu l’avènement de profonds changements dans de nombreuses discipline scientifiques. Certains de ces changements, directement liés à la collecte massive de données, ont donné naissance à ...
Lire la suite >Les trois dernières décennies ont vu l’avènement de profonds changements dans de nombreuses discipline scientifiques. Certains de ces changements, directement liés à la collecte massive de données, ont donné naissance à de nombreux défis en apprentissage statistique. La réduction de la dimension en est un. En régression linéaire, l’idée de parcimonie a longtemps été associée à la possibilité de modéliser un phénomène grâce à un faible nombre de variables. Un nouveau paradigme a récemment été introduit dans lequel s’inscrivent pleinement les présents travaux. Nous présentons ici un modèle permettant simultanément d’estimer un modèle de régression tout en effectuant une classification des covariables. Ce modèle ne considère pas les coefficients de régression comme des paramètres à estimer mais plutôt comme des variables aléatoires non observées suivant une distribution de mélange gaussien. La partition latente des variables est estimée par maximum de vraisemblance. Le nombre de groupes de variables est choisi en minimisant le critère BIC. Notre modèle possède une très bonne qualité de prédiction et son interprétation est aisée grâce à l’introduction de groupe de variables.Lire moins >
Lire la suite >Les trois dernières décennies ont vu l’avènement de profonds changements dans de nombreuses discipline scientifiques. Certains de ces changements, directement liés à la collecte massive de données, ont donné naissance à de nombreux défis en apprentissage statistique. La réduction de la dimension en est un. En régression linéaire, l’idée de parcimonie a longtemps été associée à la possibilité de modéliser un phénomène grâce à un faible nombre de variables. Un nouveau paradigme a récemment été introduit dans lequel s’inscrivent pleinement les présents travaux. Nous présentons ici un modèle permettant simultanément d’estimer un modèle de régression tout en effectuant une classification des covariables. Ce modèle ne considère pas les coefficients de régression comme des paramètres à estimer mais plutôt comme des variables aléatoires non observées suivant une distribution de mélange gaussien. La partition latente des variables est estimée par maximum de vraisemblance. Le nombre de groupes de variables est choisi en minimisant le critère BIC. Notre modèle possède une très bonne qualité de prédiction et son interprétation est aisée grâce à l’introduction de groupe de variables.Lire moins >
Résumé en anglais : [en]
For the last three decades, the advent of technologies for massive data collection have brought deep changes in many scientific fields. What was first seen as a blessing, rapidly turned out to be termed as the curse of ...
Lire la suite >For the last three decades, the advent of technologies for massive data collection have brought deep changes in many scientific fields. What was first seen as a blessing, rapidly turned out to be termed as the curse of dimensionality. Reducing the dimensionality has therefore become a challenge in statistical learning. In high dimensional linear regression models, the quest for parsimony has long been driven by the idea that a few relevant variables may be sufficient to describe the modeled phenomenon. Recently, a new paradigm was introduced in a series of articles from which the present work derives. We propose here a model that simultaneously performs variable clustering and regression. Our approach no longer considers the regression coefficients as fixed parameters to be estimated, but as unobserved random variables following a Gaussian mixture model. The latent partition is then determined by maximum likelihood and predictions are obtained from the conditional distribution of the regression coefficients given the data. The number of latent components is chosen using a BIC criterion. Our model has very competitive predictive performances compared to standard approaches and brings significant improvements in interpretability.Lire moins >
Lire la suite >For the last three decades, the advent of technologies for massive data collection have brought deep changes in many scientific fields. What was first seen as a blessing, rapidly turned out to be termed as the curse of dimensionality. Reducing the dimensionality has therefore become a challenge in statistical learning. In high dimensional linear regression models, the quest for parsimony has long been driven by the idea that a few relevant variables may be sufficient to describe the modeled phenomenon. Recently, a new paradigm was introduced in a series of articles from which the present work derives. We propose here a model that simultaneously performs variable clustering and regression. Our approach no longer considers the regression coefficients as fixed parameters to be estimated, but as unobserved random variables following a Gaussian mixture model. The latent partition is then determined by maximum likelihood and predictions are obtained from the conditional distribution of the regression coefficients given the data. The number of latent components is chosen using a BIC criterion. Our model has very competitive predictive performances compared to standard approaches and brings significant improvements in interpretability.Lire moins >
Langue :
Anglais
Comité de lecture :
Oui
Audience :
Internationale
Vulgarisation :
Non
Collections :
Source :
Fichiers
- document
- Accès libre
- Accéder au document
- CLERE.pdf
- Accès libre
- Accéder au document