Optimisation combinatoire pour la sélection ...
Type de document :
Thèse
Titre :
Optimisation combinatoire pour la sélection de variables en régression en grande dimension : Application en génétique animale
Titre en anglais :
Combinatorial optimization for variable selection in high dimensional regression: Application in animal genetic
Auteur(s) :
Hamon, Julie [Auteur]
Laboratoire d'Informatique Fondamentale de Lille [LIFL]
Parallel Cooperative Multi-criteria Optimization [DOLPHIN]
Laboratoire d'Informatique Fondamentale de Lille [LIFL]
Parallel Cooperative Multi-criteria Optimization [DOLPHIN]
Directeur(s) de thèse :
Clarisse Dhaenens(clarisse.dhaenens@lifl.fr)
Date de soutenance :
2013-11-26
Président du jury :
Charles Bouveyron (rapporteur)
Frédéric Lardeux (rapporteur)
Laurence Duchien (examinateur)
Stéphane Chrétien (examinateur)
Claude Grenier (membre invité)
Clarisse Dhaenens (Directrice)
Julien Jacques (Directeur)
Frédéric Lardeux (rapporteur)
Laurence Duchien (examinateur)
Stéphane Chrétien (examinateur)
Claude Grenier (membre invité)
Clarisse Dhaenens (Directrice)
Julien Jacques (Directeur)
Membre(s) du jury :
Charles Bouveyron (rapporteur)
Frédéric Lardeux (rapporteur)
Laurence Duchien (examinateur)
Stéphane Chrétien (examinateur)
Claude Grenier (membre invité)
Clarisse Dhaenens (Directrice)
Julien Jacques (Directeur)
Frédéric Lardeux (rapporteur)
Laurence Duchien (examinateur)
Stéphane Chrétien (examinateur)
Claude Grenier (membre invité)
Clarisse Dhaenens (Directrice)
Julien Jacques (Directeur)
Organisme de délivrance :
Université des Sciences et Technologie de Lille - Lille I
École doctorale :
Ecole doctorale sciences pour l'ingénieur
Mot(s)-clé(s) :
Sélection de variables
régression
optimisation combinatoire
modèle mixte
grande dimension
génomique animale.
régression
optimisation combinatoire
modèle mixte
grande dimension
génomique animale.
Mot(s)-clé(s) en anglais :
Variable selection
combinatorial optimization
mixed model
high dimension
animal genomic.
combinatorial optimization
mixed model
high dimension
animal genomic.
Discipline(s) HAL :
Statistiques [stat]/Applications [stat.AP]
Statistiques [stat]/Méthodologie [stat.ME]
Mathématiques [math]/Combinatoire [math.CO]
Computer Science [cs]/Operations Research [math.OC]
Statistiques [stat]/Méthodologie [stat.ME]
Mathématiques [math]/Combinatoire [math.CO]
Computer Science [cs]/Operations Research [math.OC]
Résumé :
Le développement des technologies de séquençage et de génotypage haut-débit permet de mesurer, pour un individu, une grande quantité d'information génomique. L'objectif de ce travail est, dans le cadre de la sélection ...
Lire la suite >Le développement des technologies de séquençage et de génotypage haut-débit permet de mesurer, pour un individu, une grande quantité d'information génomique. L'objectif de ce travail est, dans le cadre de la sélection génomique animale, de sélectionner un sous-ensemble de marqueurs génétiques pertinents permettant de prédire un caractère quantitatif, dans un contexte où le nombre d'animaux génotypés est largement inférieur au nombre de marqueurs étudiées. Ce manuscrit présente un état de l'art des méthodes actuelles permettant de répondre à la problématique. Nous proposons ensuite de répondre à notre problématique de sélection de variables en régression en grande dimension en combinant approches d'optimisation combinatoire et modèles statistiques. Nous commençons par paramétrer expérimentalement deux méthodes d'optimisation combinatoire, la recherche locale itérée et l'algorithme génétique, combinées avec une régression li- néaire multiple et nous évaluons leur pertinence. Dans le contexte de la génomique animale les relations familiales entre animaux sont connues et peuvent constituer une information importante. Notre approche étant flexible, nous proposons une adapta- tion permettant de prendre en considération ces relations familiales via l'utilisation d'un modèle mixte. Le problème du sur-apprentissage étant particulièrement présent sur nos données dû au déséquilibre important entre le nombre de variables étudiées et le nombre d'animaux disponibles, nous proposons également une amélioration de notre approche permettant de diminuer ce sur-apprentissage. Les différentes approches proposées sont validées sur des données de la littérature ainsi que sur des données réelles de Gènes Diffusion.Lire moins >
Lire la suite >Le développement des technologies de séquençage et de génotypage haut-débit permet de mesurer, pour un individu, une grande quantité d'information génomique. L'objectif de ce travail est, dans le cadre de la sélection génomique animale, de sélectionner un sous-ensemble de marqueurs génétiques pertinents permettant de prédire un caractère quantitatif, dans un contexte où le nombre d'animaux génotypés est largement inférieur au nombre de marqueurs étudiées. Ce manuscrit présente un état de l'art des méthodes actuelles permettant de répondre à la problématique. Nous proposons ensuite de répondre à notre problématique de sélection de variables en régression en grande dimension en combinant approches d'optimisation combinatoire et modèles statistiques. Nous commençons par paramétrer expérimentalement deux méthodes d'optimisation combinatoire, la recherche locale itérée et l'algorithme génétique, combinées avec une régression li- néaire multiple et nous évaluons leur pertinence. Dans le contexte de la génomique animale les relations familiales entre animaux sont connues et peuvent constituer une information importante. Notre approche étant flexible, nous proposons une adapta- tion permettant de prendre en considération ces relations familiales via l'utilisation d'un modèle mixte. Le problème du sur-apprentissage étant particulièrement présent sur nos données dû au déséquilibre important entre le nombre de variables étudiées et le nombre d'animaux disponibles, nous proposons également une amélioration de notre approche permettant de diminuer ce sur-apprentissage. Les différentes approches proposées sont validées sur des données de la littérature ainsi que sur des données réelles de Gènes Diffusion.Lire moins >
Résumé en anglais : [en]
Advances in high-throughput sequencing and genotyping technologies allow to measure large amounts of genomic information. The aim of this work is dedicated to the animal genomic selection is to select a subset of relevant ...
Lire la suite >Advances in high-throughput sequencing and genotyping technologies allow to measure large amounts of genomic information. The aim of this work is dedicated to the animal genomic selection is to select a subset of relevant genetic markers to predict a quantitative trait, in a context where the number of genotyped animals is widely lower than the number of markers studied. This thesis introduces a state-of-the-art of existing methods to address the problem. We then suggest to deal with the variable selection in high dimensional regression problem combining combinatorial optimization methods and statistical models. We start by experimentally set two combinatorial optimization methods, the iterated local search and the genetic algorithm, combined with a linear multiple regression and we evaluate their relevance. In the context of animal genomic, family relationships between animals are known and can be an important information. As our approach is flexible we suggest an adaptation to consider these familial relationships through the use of a mixed model. Moreover, the problem of overfitting is particularly present in such data due to the large imbalance between the number of variables studied and the number of animals available, so we suggest an improvement of our approach in order to reduce this over-fitting. The different suggested approaches are validated on data from the literature as well as on real data of Gènes Diffusion.Lire moins >
Lire la suite >Advances in high-throughput sequencing and genotyping technologies allow to measure large amounts of genomic information. The aim of this work is dedicated to the animal genomic selection is to select a subset of relevant genetic markers to predict a quantitative trait, in a context where the number of genotyped animals is widely lower than the number of markers studied. This thesis introduces a state-of-the-art of existing methods to address the problem. We then suggest to deal with the variable selection in high dimensional regression problem combining combinatorial optimization methods and statistical models. We start by experimentally set two combinatorial optimization methods, the iterated local search and the genetic algorithm, combined with a linear multiple regression and we evaluate their relevance. In the context of animal genomic, family relationships between animals are known and can be an important information. As our approach is flexible we suggest an adaptation to consider these familial relationships through the use of a mixed model. Moreover, the problem of overfitting is particularly present in such data due to the large imbalance between the number of variables studied and the number of animals available, so we suggest an improvement of our approach in order to reduce this over-fitting. The different suggested approaches are validated on data from the literature as well as on real data of Gènes Diffusion.Lire moins >
Langue :
Français
Collections :
Source :
Fichiers
- https://tel.archives-ouvertes.fr/tel-00920205/document
- Accès libre
- Accéder au document
- https://tel.archives-ouvertes.fr/tel-00920205/document
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- TheseJulieHamon2013.pdf
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- TheseJulieHamon2013.pdf
- Accès libre
- Accéder au document