Représentations parcimonieuses dans les ...
Document type :
Thèse
Title :
Représentations parcimonieuses dans les variétés de formes pour la classification et la génération de trajectoires humaines
English title :
Sparse Representations in the Shape Manifold for Human Trajectories Classification and Generation
Author(s) :
Ben Tanfous, Amor [Auteur]
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Université de Lille
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Université de Lille
Thesis director(s) :
Boulbaba Ben Amor
Defence date :
2019-12-03
Jury president :
Alice CAPLIER
Sylvain CALINON
Josef KITTLER
Bernadette DORIZZI
Boulbaba Ben Amor
Hassen DRIRA
Sylvain CALINON
Josef KITTLER
Bernadette DORIZZI
Boulbaba Ben Amor
Hassen DRIRA
Jury member(s) :
Alice CAPLIER
Sylvain CALINON
Josef KITTLER
Bernadette DORIZZI
Boulbaba Ben Amor
Hassen DRIRA
Sylvain CALINON
Josef KITTLER
Bernadette DORIZZI
Boulbaba Ben Amor
Hassen DRIRA
Accredited body :
Lille University
Doctoral school :
SPI Lille Nord-De-France
Keyword(s) :
Analyse des formes
Représentations parcimonieuses
Classification
IA generative
Vision par ordinateur
Géométrie riemannienne
Reconnaissance d'actions
Représentations parcimonieuses
Classification
IA generative
Vision par ordinateur
Géométrie riemannienne
Reconnaissance d'actions
English keyword(s) :
Shape analysis
Sparse representations
Classification
Generative AI
Computer vision
Riemannian Geometry
Action recognition
Sparse representations
Classification
Generative AI
Computer vision
Riemannian Geometry
Action recognition
HAL domain(s) :
Informatique [cs]
Informatique [cs]/Vision par ordinateur et reconnaissance de formes [cs.CV]
Informatique [cs]/Vision par ordinateur et reconnaissance de formes [cs.CV]
French abstract :
Concevoir des systèmes intelligents pour comprendre le contenu des vidéos est devenuun axe de recherche très important car il permet de compenser les capacités humaineslimitées de l’analyse efficace des vidéos. En particulier, ...
Show more >Concevoir des systèmes intelligents pour comprendre le contenu des vidéos est devenuun axe de recherche très important car il permet de compenser les capacités humaineslimitées de l’analyse efficace des vidéos. En particulier, la compréhension du comportementhumain à partir de vidéos suscite un intérêt considérable en raison de ses nombreusesapplications potentielles. Au même temps, la détection et le suivi de marqueurs humainsdans les flux vidéo sont devenus de plus en plus fiables, et c’est en partie grâce à ladisponibilité de capteurs abordables. Cela permet de déduire des données géométriquesqui varient dans le temps et qui jouent un rôle important dans l’analyse automatiquedu mouvement humain. Cependant, une telle analyse reste difficile en raison des énormesvariations de vue, de la détection inexacte des marqueurs, des variations importantes desclasses ainsi que de l’insuffisance des données annotées. Dans cette thèse, nous proposons denouvelles méthodes permettant de classifier et de générer des séquences 2D/3D de marqueurshumains. Tout d’abord, nous représentons ces séquences comme étant des trajectoires dansdes variétés de formes permettant ainsi une analyse invariante à la vue. Toutefois, ces variétéssont non linéaires et, par conséquent, les algorithmes classiques telles que les techniquesd’apprentissage automatique standards ne pourraient pas être appliqués d’une manièredirecte vu qu’ils sont conçus pour des données de nature linéaire. En guise de solution,nous exploitons des notions de la géométrie Riemannienne pour coder ces trajectoires enappliquant une technique de codage parcimonieux et d’apprentissage de dictionnaires. Celapermet non seulement de résoudre le problème de non-linéarité des variétés de formes maisaussi de représenter les trajectoires comme étant des représentations parcimonieuses quisont définies dans des espaces vectoriels, qui sont plus discriminantes et moins bruitéesque les données originales. Nous étudions des paradigmes intrinsèques et extrinsèques decodage parcimonieux et d’apprentissage de dictionnaire dans les variétés de formes et nousprésentons une étude comparative de leur utilisation en fonction de la nature des données(i.e. visage ou corps en 2D ou 3D). D’autre part, en se basant sur ces représentationsparcimonieuses, nous proposons deux approches de reconnaissance d’actions humaines en3D et de reconnaissance d’expressions faciales en 2D, et nous montrons que les résultatsobtenus sont compétitifs avec les méthodes récentes de l’état de l’art. Enfin, nous présentonsun modèle génératif permettant de synthétiser des actions humaines dont l’idée principaleest de concevoir un réseau antagoniste génératif afin de générer de nouvelles représentationsparcimonieuses qui sont ensuite transformées en des séquences de poses. Nous appliquonscette méthode pour l’augmentation des données ce qui permet d’améliorer les performancesde la classification d’actions. De plus, les séquences de pose générées sont utilisées pour guiderun second modèle générateur dans le but de générer des vidéos humaines par transfert dechaque pose d’une séquence en une image texture. Nous montrons que les vidéos obtenuessont réalistes et présentent une meilleure cohérence en termes d’apparence et de mouvementqu’une méthode récente de l’état de l’art.Show less >
Show more >Concevoir des systèmes intelligents pour comprendre le contenu des vidéos est devenuun axe de recherche très important car il permet de compenser les capacités humaineslimitées de l’analyse efficace des vidéos. En particulier, la compréhension du comportementhumain à partir de vidéos suscite un intérêt considérable en raison de ses nombreusesapplications potentielles. Au même temps, la détection et le suivi de marqueurs humainsdans les flux vidéo sont devenus de plus en plus fiables, et c’est en partie grâce à ladisponibilité de capteurs abordables. Cela permet de déduire des données géométriquesqui varient dans le temps et qui jouent un rôle important dans l’analyse automatiquedu mouvement humain. Cependant, une telle analyse reste difficile en raison des énormesvariations de vue, de la détection inexacte des marqueurs, des variations importantes desclasses ainsi que de l’insuffisance des données annotées. Dans cette thèse, nous proposons denouvelles méthodes permettant de classifier et de générer des séquences 2D/3D de marqueurshumains. Tout d’abord, nous représentons ces séquences comme étant des trajectoires dansdes variétés de formes permettant ainsi une analyse invariante à la vue. Toutefois, ces variétéssont non linéaires et, par conséquent, les algorithmes classiques telles que les techniquesd’apprentissage automatique standards ne pourraient pas être appliqués d’une manièredirecte vu qu’ils sont conçus pour des données de nature linéaire. En guise de solution,nous exploitons des notions de la géométrie Riemannienne pour coder ces trajectoires enappliquant une technique de codage parcimonieux et d’apprentissage de dictionnaires. Celapermet non seulement de résoudre le problème de non-linéarité des variétés de formes maisaussi de représenter les trajectoires comme étant des représentations parcimonieuses quisont définies dans des espaces vectoriels, qui sont plus discriminantes et moins bruitéesque les données originales. Nous étudions des paradigmes intrinsèques et extrinsèques decodage parcimonieux et d’apprentissage de dictionnaire dans les variétés de formes et nousprésentons une étude comparative de leur utilisation en fonction de la nature des données(i.e. visage ou corps en 2D ou 3D). D’autre part, en se basant sur ces représentationsparcimonieuses, nous proposons deux approches de reconnaissance d’actions humaines en3D et de reconnaissance d’expressions faciales en 2D, et nous montrons que les résultatsobtenus sont compétitifs avec les méthodes récentes de l’état de l’art. Enfin, nous présentonsun modèle génératif permettant de synthétiser des actions humaines dont l’idée principaleest de concevoir un réseau antagoniste génératif afin de générer de nouvelles représentationsparcimonieuses qui sont ensuite transformées en des séquences de poses. Nous appliquonscette méthode pour l’augmentation des données ce qui permet d’améliorer les performancesde la classification d’actions. De plus, les séquences de pose générées sont utilisées pour guiderun second modèle générateur dans le but de générer des vidéos humaines par transfert dechaque pose d’une séquence en une image texture. Nous montrons que les vidéos obtenuessont réalistes et présentent une meilleure cohérence en termes d’apparence et de mouvementqu’une méthode récente de l’état de l’art.Show less >
English abstract : [en]
Designing intelligent systems to understand video content has been a hot research topicin the past few decades since it helps compensate the limited human capabilities of analyzingvideos in an efficient way. In particular, ...
Show more >Designing intelligent systems to understand video content has been a hot research topicin the past few decades since it helps compensate the limited human capabilities of analyzingvideos in an efficient way. In particular, human behavior understanding in videos is receivinga huge interest due to its many potential applications. At the same time, the detectionand tracking of human landmarks in video streams has gained in reliability partly due tothe availability of affordable RGB-D sensors. This infer time-varying geometric data whichplay an important role in the automatic human motion analysis. However, such analysisremains challenging due to enormous view variations, inaccurate detection of landmarks,large intra- and inter- class variations, and insufficiency of annotated data. In this thesis, wepropose novel frameworks to classify and generate 2D/3D sequences of human landmarks. Wefirst represent them as trajectories in the shape manifold which allows for a view-invariantanalysis. However, this manifold is nonlinear and thereby standard computational toolsand machine learning techniques could not be applied in a straightforward manner. As asolution, we exploit notions of Riemannian geometry to encode these trajectories based onsparse coding and dictionary learning. This not only overcomes the problem of nonlinearityof the manifold but also yields sparse representations that lie in vector space, that aremore discriminative and less noisy than the original data. We study intrinsic and extrinsicparadigms of sparse coding and dictionary learning in the shape manifold and provide acomprehensive evaluation on their use according to the nature of the data (i.e. face or bodyin 2D or 3D). Based on these sparse representations, we present two frameworks for 3Dhuman action recognition and 2D micro- and macro- facial expression recognition and showthat they achieve competitive performance in comparison to the state-of-the-art. Finally,we design a generative model allowing to synthesize human actions. The main idea is totrain a generative adversarial network to generate new sparse representations that are thentransformed to pose sequences. This framework is applied to the task of data augmentationallowing to improve the classification performance. In addition, the generated pose sequencesare used to guide a second framework to generate human videos by means of pose transferof each pose to a texture image. We show that the obtained videos are realistic and havebetter appearance and motion consistency than a recent state-of-the-art baseline.Show less >
Show more >Designing intelligent systems to understand video content has been a hot research topicin the past few decades since it helps compensate the limited human capabilities of analyzingvideos in an efficient way. In particular, human behavior understanding in videos is receivinga huge interest due to its many potential applications. At the same time, the detectionand tracking of human landmarks in video streams has gained in reliability partly due tothe availability of affordable RGB-D sensors. This infer time-varying geometric data whichplay an important role in the automatic human motion analysis. However, such analysisremains challenging due to enormous view variations, inaccurate detection of landmarks,large intra- and inter- class variations, and insufficiency of annotated data. In this thesis, wepropose novel frameworks to classify and generate 2D/3D sequences of human landmarks. Wefirst represent them as trajectories in the shape manifold which allows for a view-invariantanalysis. However, this manifold is nonlinear and thereby standard computational toolsand machine learning techniques could not be applied in a straightforward manner. As asolution, we exploit notions of Riemannian geometry to encode these trajectories based onsparse coding and dictionary learning. This not only overcomes the problem of nonlinearityof the manifold but also yields sparse representations that lie in vector space, that aremore discriminative and less noisy than the original data. We study intrinsic and extrinsicparadigms of sparse coding and dictionary learning in the shape manifold and provide acomprehensive evaluation on their use according to the nature of the data (i.e. face or bodyin 2D or 3D). Based on these sparse representations, we present two frameworks for 3Dhuman action recognition and 2D micro- and macro- facial expression recognition and showthat they achieve competitive performance in comparison to the state-of-the-art. Finally,we design a generative model allowing to synthesize human actions. The main idea is totrain a generative adversarial network to generate new sparse representations that are thentransformed to pose sequences. This framework is applied to the task of data augmentationallowing to improve the classification performance. In addition, the generated pose sequencesare used to guide a second framework to generate human videos by means of pose transferof each pose to a texture image. We show that the obtained videos are realistic and havebetter appearance and motion consistency than a recent state-of-the-art baseline.Show less >
Language :
Anglais
Collections :
Source :
Files
- document
- Open access
- Access the document
- Thesis_Ben_Tanfous.pdf
- Open access
- Access the document