Décorrélation de variables à base de modèles ...
Type de document :
Thèse
Titre :
Décorrélation de variables à base de modèles en régression linéaire (CorReg). Application aux données manquantes et à l'industrie sidérurgique.
Titre en anglais :
Model-based covariable decorrelation in linear regression (CorReg). Application to missing data and to steel industry
Auteur(s) :
Théry, Clément [Auteur]
MOdel for Data Analysis and Learning [MODAL]
Laboratoire Paul Painlevé - UMR 8524 [LPP]
MOdel for Data Analysis and Learning [MODAL]
Laboratoire Paul Painlevé - UMR 8524 [LPP]
Directeur(s) de thèse :
Christophe Biernacki
Date de soutenance :
2015-07-08
Organisme de délivrance :
Université Lille 1
Mot(s)-clé(s) :
Prétraitement
Régression
Corrélations
Valeurs manquantes
MCMC
modèle génératif
Critère Bayésien
sélection de variable
méthode séquentielle
graphes
Régression
Corrélations
Valeurs manquantes
MCMC
modèle génératif
Critère Bayésien
sélection de variable
méthode séquentielle
graphes
Mot(s)-clé(s) en anglais :
Pre-treatment
Missing values
generative model
Bayesian Criterion
variable selection
plug-in method
Missing values
generative model
Bayesian Criterion
variable selection
plug-in method
Discipline(s) HAL :
Statistiques [stat]/Méthodologie [stat.ME]
Résumé :
corrélationsau sein des bases de données, particulièrement fréquentes dans le cadre industriel.Une modélisation explicite des corrélations par un système de sous-régressions entre covariablespermet de pointer les sources ...
Lire la suite >corrélationsau sein des bases de données, particulièrement fréquentes dans le cadre industriel.Une modélisation explicite des corrélations par un système de sous-régressions entre covariablespermet de pointer les sources des corrélations et d’isoler certaines variablesredondantes.Il en découle une pré-sélection de variables nettement moins corrélées sans perte significatived’information et avec un fort potentiel explicatif (la pré-selection elle-même estexpliquée par la structure de sous-régression qui est simple à comprendre car uniquementconstituée de modèles linéaires).Un algorithme de recherche de structure de sous-régressions est proposé, basé surun modèle génératif complet sur les données et utilisant une chaîne MCMC (Monte-Carlo Markov Chain). Ce prétraitement est utilisé pour la régression linéaire comme uneprésélection des variables explicatives à des fins illustratives mais ne dépend pas de lavariable réponse. Il peut donc être utilisé de manière générale pour toute problématiquede corrélations.Par la suite, un estimateur plug-in pour la régression linéaire est proposé pour réinjecterl’information résiduelle contenue dans les variables redondantes de manière séquentielle.On utilise ainsi toutes les variables sans souffrir des corrélations entre covariables.Enfin, le modèle génératif complet offre la perspective de pouvoir être utilisé pour gérerd’éventuelles valeurs manquantes dans les données. Cela permet la recherche de structuremalgré l’absence de certaines données. Mais un autre débouché est l’imputation multipledes données manquantes, préalable à l’utilisation de méthodes classiques incompatiblesavec la présence de valeurs manquantes. De plus, l’imputation multiple des valeurs manquantespermet d’obtenir un estimateur de la variance des valeurs imputées. Encoreune fois, la régression linéaire vient illustrer l’apport de la méthode qui reste cependantgénérique et pourrait être appliquée à d’autres contextes tels que le clustering.Tout au long de ces travaux, l’accent est mis principalement sur l’interprétabilité desrésultats en raison du caractère industriel de cette thèse.Le package R intitulé CorReg, disponible sur le cran sous licence CeCILL, implémenteles méthodes développées durant cette thèse.Lire moins >
Lire la suite >corrélationsau sein des bases de données, particulièrement fréquentes dans le cadre industriel.Une modélisation explicite des corrélations par un système de sous-régressions entre covariablespermet de pointer les sources des corrélations et d’isoler certaines variablesredondantes.Il en découle une pré-sélection de variables nettement moins corrélées sans perte significatived’information et avec un fort potentiel explicatif (la pré-selection elle-même estexpliquée par la structure de sous-régression qui est simple à comprendre car uniquementconstituée de modèles linéaires).Un algorithme de recherche de structure de sous-régressions est proposé, basé surun modèle génératif complet sur les données et utilisant une chaîne MCMC (Monte-Carlo Markov Chain). Ce prétraitement est utilisé pour la régression linéaire comme uneprésélection des variables explicatives à des fins illustratives mais ne dépend pas de lavariable réponse. Il peut donc être utilisé de manière générale pour toute problématiquede corrélations.Par la suite, un estimateur plug-in pour la régression linéaire est proposé pour réinjecterl’information résiduelle contenue dans les variables redondantes de manière séquentielle.On utilise ainsi toutes les variables sans souffrir des corrélations entre covariables.Enfin, le modèle génératif complet offre la perspective de pouvoir être utilisé pour gérerd’éventuelles valeurs manquantes dans les données. Cela permet la recherche de structuremalgré l’absence de certaines données. Mais un autre débouché est l’imputation multipledes données manquantes, préalable à l’utilisation de méthodes classiques incompatiblesavec la présence de valeurs manquantes. De plus, l’imputation multiple des valeurs manquantespermet d’obtenir un estimateur de la variance des valeurs imputées. Encoreune fois, la régression linéaire vient illustrer l’apport de la méthode qui reste cependantgénérique et pourrait être appliquée à d’autres contextes tels que le clustering.Tout au long de ces travaux, l’accent est mis principalement sur l’interprétabilité desrésultats en raison du caractère industriel de cette thèse.Le package R intitulé CorReg, disponible sur le cran sous licence CeCILL, implémenteles méthodes développées durant cette thèse.Lire moins >
Résumé en anglais : [en]
This thesis was motivated by correlation issues in real datasets, in particular industrialdatasets. The main idea stands in explicit modeling of the correlations between covariatesby a structure of sub-regressions, that ...
Lire la suite >This thesis was motivated by correlation issues in real datasets, in particular industrialdatasets. The main idea stands in explicit modeling of the correlations between covariatesby a structure of sub-regressions, that simply is a system of linear regressions betweenthe covariates. It points out redundant covariates that can be deleted in a pre-selectionstep to improve matrix conditioning without significant loss of information and withstrong explicative potential because this pre-selection is explained by the structure ofsub-regressions, itself easy to interpret.An algorithm to find the sub-regressions structure inherent to the dataset is provided,based on a full generative model and using Monte-Carlo Markov Chain (MCMC) method.This pre-treatment is then applied on linear regression to show its efficiency but does notdepend on a response variable and thus can be used in a more general way with anycorrelated datasets.In a second part, a plug-in estimator is defined to get back the redundant covariatessequentially. Then all the covariates are used but the sequential approach acts as a protectionagainst correlations.Finally, the generative model defined here allows, as a perspective, to manage missingvalues both during the MCMC and then for imputation (for example multiple imputation).Then we are able to use classical methods that are not compatible with missingdatasets. Missing values can be imputed with a confidence interval to show estimationaccuracy. Once again, linear regression is used to illustrate the benefits of this methodbut it remains a pre-treatment that can be used in other contexts, like clustering and so on.The industrial motivation of this work defines interpretation as a stronghold at eachstep.The R package CorReg, is on cran3 now under CeCILL4 license. It implements themethods created during this thesis.Keywords: Pre-treatment, Regression, Correlations, Missing values, MCMC, generativemodel, Bayesian Criterion, variable selection, plug-in method,. . .Lire moins >
Lire la suite >This thesis was motivated by correlation issues in real datasets, in particular industrialdatasets. The main idea stands in explicit modeling of the correlations between covariatesby a structure of sub-regressions, that simply is a system of linear regressions betweenthe covariates. It points out redundant covariates that can be deleted in a pre-selectionstep to improve matrix conditioning without significant loss of information and withstrong explicative potential because this pre-selection is explained by the structure ofsub-regressions, itself easy to interpret.An algorithm to find the sub-regressions structure inherent to the dataset is provided,based on a full generative model and using Monte-Carlo Markov Chain (MCMC) method.This pre-treatment is then applied on linear regression to show its efficiency but does notdepend on a response variable and thus can be used in a more general way with anycorrelated datasets.In a second part, a plug-in estimator is defined to get back the redundant covariatessequentially. Then all the covariates are used but the sequential approach acts as a protectionagainst correlations.Finally, the generative model defined here allows, as a perspective, to manage missingvalues both during the MCMC and then for imputation (for example multiple imputation).Then we are able to use classical methods that are not compatible with missingdatasets. Missing values can be imputed with a confidence interval to show estimationaccuracy. Once again, linear regression is used to illustrate the benefits of this methodbut it remains a pre-treatment that can be used in other contexts, like clustering and so on.The industrial motivation of this work defines interpretation as a stronghold at eachstep.The R package CorReg, is on cran3 now under CeCILL4 license. It implements themethods created during this thesis.Keywords: Pre-treatment, Regression, Correlations, Missing values, MCMC, generativemodel, Bayesian Criterion, variable selection, plug-in method,. . .Lire moins >
Langue :
Anglais
Collections :
Source :
Fichiers
- document
- Accès libre
- Accéder au document
- 50376-2015-Thery.pdf
- Accès libre
- Accéder au document