Nouvelles approches pour la prédiction et ...
Document type :
Thèse
Title :
Nouvelles approches pour la prédiction et la génération de mouvement humain utilisant des squelettes 3D : application aux interactions non-verbales en réalité virtuelle
English title :
New approaches for predicting and generating human motions from 3D skeletons: application to non-verbal social interactions in virtual reality
Author(s) :
Chopin, Baptiste [Auteur]
Laboratoire Sciences Cognitives et Sciences Affectives - UMR 9193 [SCALab]
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Laboratoire Sciences Cognitives et Sciences Affectives - UMR 9193 [SCALab]
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Thesis director(s) :
Mohamed Daoudi
Angela Bartolo
Angela Bartolo
Defence date :
2023-03-10
Jury president :
Antitza Dantcheva [rapporteure]
Renaud Séguier [Président]
Pietro Pala
Catherine Pelachaud
Nicu Sebe
Hatice Gunes
Renaud Séguier [Président]
Pietro Pala
Catherine Pelachaud
Nicu Sebe
Hatice Gunes
Jury member(s) :
Antitza Dantcheva [rapporteure]
Renaud Séguier [Président]
Pietro Pala
Catherine Pelachaud
Nicu Sebe
Hatice Gunes
Renaud Séguier [Président]
Pietro Pala
Catherine Pelachaud
Nicu Sebe
Hatice Gunes
Accredited body :
Université de Lille
Doctoral school :
Mathématiques-Sciences du numérique et de leurs interactions (ED 631)
Keyword(s) :
modèles génératifs
agent virtuel
geste
analyse cinématique
interactions non-verbales
apprentissage automatique
agent virtuel
geste
analyse cinématique
interactions non-verbales
apprentissage automatique
English keyword(s) :
generative models
virtual agent
gesture
kinematic analysis
non-verbal interactions
machine learning
virtual agent
gesture
kinematic analysis
non-verbal interactions
machine learning
HAL domain(s) :
Informatique [cs]/Vision par ordinateur et reconnaissance de formes [cs.CV]
Informatique [cs]/Synthèse d'image et réalité virtuelle [cs.GR]
Informatique [cs]/Apprentissage [cs.LG]
Informatique [cs]/Synthèse d'image et réalité virtuelle [cs.GR]
Informatique [cs]/Apprentissage [cs.LG]
French abstract :
Dans cette thèse, nous abordons diverses tâches de génération de squelettes 3D de corps humain en mouvement. La capacité à prédire et générer des mouvements humains est devenue un sujet important dans de nombreux secteurs ...
Show more >Dans cette thèse, nous abordons diverses tâches de génération de squelettes 3D de corps humain en mouvement. La capacité à prédire et générer des mouvements humains est devenue un sujet important dans de nombreux secteurs tel que la conduite de véhicules autonomes, l'animation et la réalité virtuelle. Bien que l'apprentissage profond ait considérablement amélioré les performances des modèles génératifs ces dernières années, la génération de mouvements humains reste un problème ouvert. Les méthodes les plus récentes ont toujours du mal à générer des mouvements humains de bonne qualité. Cela résulte de la nécessité de modéliser les composantes spatiales et temporelles simultanément et de comprendre les interactions entre les différentes parties du corps. La tâche est également difficile en raison de la grande variabilité des mouvements, à la fois en termes de temps, puisque le même mouvement peut être effectué à une vitesse différente, et en termes d'espace, puisque l'amplitude du mouvement peut varier considérablement. De plus les mouvements 3D générés doivent être précis, réalistes et fluides. Nous proposons un nouveau réseau antagoniste génératif (GAN) prédictif de Wasserstein pour prédire la fin du mouvement d'une personne. Notre réseau prédictif utilise une répresentation des courbes appelée SRVF pour modéliser la trajectoires des mouvements humains et permet une prédiction précise, en temps réel, de mouvement sans discontinuités comme le montrent nos expériences. Dans une seconde étape de la thèse nous nous intéressons à la génération des mouvements d'interaction entre deux personnes. Tout d'abord, nous présentons une nouvelle méthode pour générer un mouvement de réaction en réponse à un mouvement d'action. Contrairement aux méthodes de l'état de l'art qui se focalisent sur la génération du mouvement d'une personne, nous proposons Interformer, un Transformer qui génère des mouvements de réaction en utilisant les capacités de modélisation temporelles des réseaux Transformer ainsi que de nouveaux modules pour modéliser les interactions. Nos résultats montrent que l'approche Interformer surpasse les méthodes de l'état de l'art. Ensuite nous développons une nouvelle architecture pour générer le mouvement d'interaction de deux personnes en fonction de la classe du mouvement. Notre architecture exploite les capacités des modèles de diffusion, de l'architecture Transformer et l'apprentissage de graphes bipartis. Nos résultats montrent que notre méthode surpasse l'état de l'art quantitativement et qualitativement. Nous proposons une application qui utilise la méthode de prédiction du mouvement afin de permettre à un agent virtuel de prédire et de reconnaître le mouvement d'une personne dans le cadre des interactions non-verbales dans un environnement virtuel. Pour cela nous avons proposé une nouvelle base de données de mouvement 3D capturée avec un système de capture de mouvement de haute qualité et une caméra de profondeur.Show less >
Show more >Dans cette thèse, nous abordons diverses tâches de génération de squelettes 3D de corps humain en mouvement. La capacité à prédire et générer des mouvements humains est devenue un sujet important dans de nombreux secteurs tel que la conduite de véhicules autonomes, l'animation et la réalité virtuelle. Bien que l'apprentissage profond ait considérablement amélioré les performances des modèles génératifs ces dernières années, la génération de mouvements humains reste un problème ouvert. Les méthodes les plus récentes ont toujours du mal à générer des mouvements humains de bonne qualité. Cela résulte de la nécessité de modéliser les composantes spatiales et temporelles simultanément et de comprendre les interactions entre les différentes parties du corps. La tâche est également difficile en raison de la grande variabilité des mouvements, à la fois en termes de temps, puisque le même mouvement peut être effectué à une vitesse différente, et en termes d'espace, puisque l'amplitude du mouvement peut varier considérablement. De plus les mouvements 3D générés doivent être précis, réalistes et fluides. Nous proposons un nouveau réseau antagoniste génératif (GAN) prédictif de Wasserstein pour prédire la fin du mouvement d'une personne. Notre réseau prédictif utilise une répresentation des courbes appelée SRVF pour modéliser la trajectoires des mouvements humains et permet une prédiction précise, en temps réel, de mouvement sans discontinuités comme le montrent nos expériences. Dans une seconde étape de la thèse nous nous intéressons à la génération des mouvements d'interaction entre deux personnes. Tout d'abord, nous présentons une nouvelle méthode pour générer un mouvement de réaction en réponse à un mouvement d'action. Contrairement aux méthodes de l'état de l'art qui se focalisent sur la génération du mouvement d'une personne, nous proposons Interformer, un Transformer qui génère des mouvements de réaction en utilisant les capacités de modélisation temporelles des réseaux Transformer ainsi que de nouveaux modules pour modéliser les interactions. Nos résultats montrent que l'approche Interformer surpasse les méthodes de l'état de l'art. Ensuite nous développons une nouvelle architecture pour générer le mouvement d'interaction de deux personnes en fonction de la classe du mouvement. Notre architecture exploite les capacités des modèles de diffusion, de l'architecture Transformer et l'apprentissage de graphes bipartis. Nos résultats montrent que notre méthode surpasse l'état de l'art quantitativement et qualitativement. Nous proposons une application qui utilise la méthode de prédiction du mouvement afin de permettre à un agent virtuel de prédire et de reconnaître le mouvement d'une personne dans le cadre des interactions non-verbales dans un environnement virtuel. Pour cela nous avons proposé une nouvelle base de données de mouvement 3D capturée avec un système de capture de mouvement de haute qualité et une caméra de profondeur.Show less >
English abstract : [en]
In this thesis, we address various tasks for generating 3D skeletons of humans in motion. The ability to predict and generate human motion has become an important topic in recent years in many domains including self-driving ...
Show more >In this thesis, we address various tasks for generating 3D skeletons of humans in motion. The ability to predict and generate human motion has become an important topic in recent years in many domains including self-driving vehicles, animation, and virtual reality. While in recent years deep learning has greatly increased the performance of generative models, the generation of human motion remains an open issue. Even the more recent methods still struggle to generate high-quality human motion. This is due to the need to model both spatial and temporal components and of understanding the interactions of human body parts. The task is also challenging due to the high variability of motions both in terms of time since the same motion can be performed at a different speed, and in terms of space, since the amplitude of motion can vary greatly. Furthermore, the generated 3D motions must be accurate, realistic, and smooth. We propose a new predictive Wasserstein generative adversarial network (GAN) to predict the end of a person's motion. Our predictive network uses the SRVF representation to model human motion and allow the prediction of accurate motion without discontinuities in real-time as shown in our experiments against state-of-the-art methods. We then work on the generation of interaction motions between two persons. We present a new method to generate a reaction motion in response to an action. Unlike the state-of-the-art methods that focus on generating the motion of a single person, we propose Interformer, a Transformer to predict the reaction to an action using the temporal modeling abilities of the Transformer network as well as new skeleton adjacency and interaction distance modules to model the interactions. We compare our results to interaction generation and motion prediction methods and outperform them. We develop a new architecture to generate the motion of two people interacting based on a class label. Our architecture leverages the capabilities of diffusion models, Transformer architecture, and bipartite graph networks. Our results show that our method outperforms the state-of-the-art both quantitatively and qualitatively. We propose an application that uses our motion prediction method to allow a virtual agent to predict and recognize a person's motion in non-verbal interactions in a virtual environment. For this purpose, we propose a new 3D motion database captured with a high-quality motion capture system and a depth camera.Show less >
Show more >In this thesis, we address various tasks for generating 3D skeletons of humans in motion. The ability to predict and generate human motion has become an important topic in recent years in many domains including self-driving vehicles, animation, and virtual reality. While in recent years deep learning has greatly increased the performance of generative models, the generation of human motion remains an open issue. Even the more recent methods still struggle to generate high-quality human motion. This is due to the need to model both spatial and temporal components and of understanding the interactions of human body parts. The task is also challenging due to the high variability of motions both in terms of time since the same motion can be performed at a different speed, and in terms of space, since the amplitude of motion can vary greatly. Furthermore, the generated 3D motions must be accurate, realistic, and smooth. We propose a new predictive Wasserstein generative adversarial network (GAN) to predict the end of a person's motion. Our predictive network uses the SRVF representation to model human motion and allow the prediction of accurate motion without discontinuities in real-time as shown in our experiments against state-of-the-art methods. We then work on the generation of interaction motions between two persons. We present a new method to generate a reaction motion in response to an action. Unlike the state-of-the-art methods that focus on generating the motion of a single person, we propose Interformer, a Transformer to predict the reaction to an action using the temporal modeling abilities of the Transformer network as well as new skeleton adjacency and interaction distance modules to model the interactions. We compare our results to interaction generation and motion prediction methods and outperform them. We develop a new architecture to generate the motion of two people interacting based on a class label. Our architecture leverages the capabilities of diffusion models, Transformer architecture, and bipartite graph networks. Our results show that our method outperforms the state-of-the-art both quantitatively and qualitatively. We propose an application that uses our motion prediction method to allow a virtual agent to predict and recognize a person's motion in non-verbal interactions in a virtual environment. For this purpose, we propose a new 3D motion database captured with a high-quality motion capture system and a depth camera.Show less >
Language :
Anglais
Collections :
Source :
Files
- document
- Open access
- Access the document
- Thesis_Baptiste_Chopin.pdf
- Open access
- Access the document