>>

Soutenance de thèse : Diogo Carbonera Luvizon

Titre de la thèse

Apprentissage automatique pour la reconnaissance d'action humaine et l'estimation de pose à partir de l'information 3D.

Machine Learning for Human Action Recognition and Pose Estimation based on 3D Information.

Date et lieu de soutenance

Lundi 8 avril 2019.

ENSEA Cergy, salle du conseil.

Résumé

La reconnaissance d'actions humaines en 3D est une tâche difficile en raison de la complexité de mouvements humains et de la variété des poses et des actions accomplies par différents sujets. Les technologies récentes basées sur des capteurs de profondeur peuvent fournir les représentations squelettiques à faible coût de calcul, ce qui est une information utile pour la reconnaissance d'actions. Cependant, ce type de capteurs se limite à des environnements contrôlés et génère fréquemment des données bruitées. Parallèlement à ces avancées technologiques, les réseaux de neurones convolutifs (CNN) ont montré des améliorations significatives pour la reconnaissance d’actions et pour l’estimation de la pose humaine en 3D à partir des images couleurs. Même si ces problèmes sont étroitement liés, les deux tâches sont souvent traitées séparément dans la littérature.

Dans ce travail, nous analysons le problème de la reconnaissance d'actions humaines dans deux scénarios: premièrement, nous explorons les caractéristiques spatiales et temporelles à partir de représentations de squelettes humains, et qui sont agrégées par une méthode d'apprentissage de métrique. Dans le deuxième scénario, nous montrons non seulement l'importance de la précision de la pose en 3D pour la reconnaissance d'actions, mais aussi que les deux tâches peuvent être efficacement effectuées par un seul réseau de neurones profond capable d'obtenir des résultats du niveau de l'état de l'art. De plus, nous démontrons que l'optimisation de bout en bout en utilisant la pose comme contrainte intermédiaire conduit à une précision plus élevée sur la tâche de reconnaissance d'action que l'apprentissage séparé de ces tâches. Enfin, nous proposons une nouvelle architecture adaptable pour l’estimation de la pose en 3D et la reconnaissance de l’action simultanément et en temps réel. Cette architecture offre une gamme de compromis performances vs vitesse avec une seule procédure d’entraînement multitâche et multimodale.

Mots-clefs

Reconnaissande d'action humaine, Estimation de pose, Apprentissage de distance, Apprentissage profond, Architecture multitâche

Abstract

3D human action recognition is a challenging task due to the complexity of human movements and to the variety on poses and actions performed by distinct subjects. Recent technologies based on depth sensors can provide 3D human skeletons with low computational cost, which is an useful information for action recognition. However, such low cost sensors are restricted to controlled environment and frequently output noisy data. Meanwhile, convolutional neural networks (CNN) have shown significant improvements on both action recognition and 3D human pose estimation from RGB images. Despite being closely related problems, the two tasks are frequently handled separated in the literature.

In this work, we analyze the problem of 3D human action recognition in two scenarios: first, we explore spatial and temporal features from human skeletons, which are aggregated by a shallow metric learning approach. In the second scenario, we not only show that precise 3D poses are beneficial to action recognition, but also that both tasks can be efficiently performed by a single deep neural network and still achieves state-of-the-art results. Additionally, we demonstrate that optimization from end-to-end using poses as an intermediate constraint leads to significant higher accuracy on the action task than separated learning. Finally, we propose a new scalable architecture for real-time 3D pose estimation and action recognition simultaneously, which offers a range of performance vs speed trade-off with a single multimodal and multitask training procedure.

Keywords

Human action recognition, Human pose estimation, Metric learning, Deep learning, Multitask architecture

Composition du jury

  • Christian WOLF, Maître de Conférences, LIRIS (UMR 5205 CNRS) / INSA de Lyon, Rapporteur
  • Élisa FROMONT, Professeur, Centre de recherche IRISA/INRIA rba / Uni Rennes 1, Rapporteur
  • Marie-Paule CANI, Professeur, Ecole Polytechnique, Examinateur
  • Christian THEOBALT, Professeur, Saarland University, Examinateur
  • Cordelia SCHMID, Directeur de Recherche, INRIA, Examinateur
  • David PICARD, Associate Professor, ETIS UMR 8051 CNRS / ENSEA, Directeur de thèse
  • Hedi TABIA, Associate Professor, ETIS UMR 8051 CNRS / ENSEA, CoDirecteur de thèse

Retour