>>

Soutenance de thèse : Alexandre Perez

Titre de la thèse

Analyse et reconnaissance des gestes avec un capteur RGBD.

Gesture analysis and recognition with a RGBD sensor.

Date et lieu de soutenance

Mercredi 6 décembre 2017.

ENSEA Cergy, salle du conseil

Résumé

L’analyse et la reconnaissance de gestes est utile dans de nombreuses applications, notamment pour les interfaces homme-machine. L’apparition de capteurs RGB-D à bas prix permet d’exploiter l’information 3D afin d’améliorer les performances des méthodes de reconnaissance d’actions basées sur les données RGB-D. Néanmoins la reconnaissance précise d’actions humaines 3D est encore un défi à cause de la variabilité des mouvements humains. Dans cette thèse, notre objectif est de fournit des solutions efficaces pour répondre à cette problématique.

Dans un premier temps, nous nous concentrons sur la fusion de caractéristiques de squelettes en introduisant un descripteur basé sur la covariance de ces caractéristiques. Un processus de sélection de caractéristiques et de joints de squelette permet d’améliorer significativement la précision de notre approche. Les expériences conduites sur trois jeux de données couramment utilisés permettent de démontrer la supériorité de de notre méthode sur l’état de l’art. De plus, les résultats sur un jeu de données spécifiquement conçu pour les interactions homme-machine, AUSY Kinect V2, confirment l’efficacité de notre approche dans ce contexte.

Pour améliorer d’avantage les performances des systèmes de reconnaissance d’actions, nous proposons de fusionner les prédictions de plusieurs méthodes de reconnaissance à l’aide de la théorie des fonctions de croyance. Le conflit généré lors du processus de fusion est alors utilisé pour rejeter les décisions conflictuelles. Les expériences menées démontrent la supériorité de la fusion basée sur la théorie des fonctions de croyance par rapport aux autres méthodes de fusion étudiées. Par ailleurs ces expériences montrent aussi l’efficacité du critère de rejet proposé.

Finalement, nous proposons de représenter la séquence de squelette par des images capturant la trajectoire des joints du squelette. A réseaux de neurones convolutionel est entrainé avec ces images ainsi qu’avec un les descripteurs de covariance de caractéristiques. Pour améliorer les performances de cette approche, nous présentons aussi une nouvelle méthode d'enrichissement de la base de données (data augmentation) qui imite des variations réalistes des squelettes. Les tests effectués sur trois jeux de test montrent la supériorité de cette méthode comparé à l’approche par seul covariance de caractéristiques.

Mots-clefs

Reconnaissance des gestes, Classification, Traitement d’images

Abstract

Gesture and action analysis and recognition is useful in many applications including human-computer interaction. The emergence of low-cost RGB-D sensors offers the opportunity to exploit the 3D information which improves the performance of RGB-based action recognition methods. However accurate 3D human action recognition is still a challenging task due to the variability of the human motions. In this thesis, we aim at providing efficient solutions to handle this problem.

First, we focus on the early fusion of skeletal features, and introduced a covariance-based descriptor. We further showed that a selection process on features and skeleton joints significantly improves the accuracy score.Experiments, conducted on three well-known datasets, demonstrate the superiority of our proposed approach compared to state-of-the-art methods. Moreover, results on a specifically released 3D action recognition dataset, AUSY Kinect V2, confirmed the efficiency of our method in human-machine interaction context.

To further improve the performance of action recognition systems, we proposed to fuse different recognition methods using the belief function theory. The conflict generated along the fusion process is managed to reject conflictual decisions. The conducted experiments showed the superiority of the fusion based on the belief function theory over other fusion approaches, and demonstrated the effectiveness of the proposed rejection criterion.

Finally, we proposed to represent skeleton sequences with images that show the trajectory of every skeleton joint. A convolutional neural network is trained with both these images and covariance of features descriptors. To further improve the performance of the system, we also introduced a new method for data augmentation on skeletal data that mimic real-world variations. We evaluated the accuracy of this approach on three datasets and the results showed the superiority of this method compared to the previous covariance of features approach.

Keywords

Action recognition, Classification, Image processing

Composition du jury

  • Cristian Dan VODISLAV, Professeur, Université de Cergy-Pontoise, Directeur de thèse
  • Hamid LAGA, Maître de Conférences, Murdoch University Australia, Rapporteur
  • Rachid JENNANE, Professeur, Université d'Orléans, Rapporteur
  • David DECLERCQ, Professeur, ENSEA, Examinateur
  • Hedi TABIA, Maître de Conférences, ENSEA, Co-Directeur de thèse
  • Hazem WANNOUS, Maître de Conférences, Université de Lille 1, Examinateur

Retour