>>

Soutenance de HdR : David Picard

Titre du mémoire

Contributions à l’apprentissage de représentations pour l’indexation basée sur le contenu visuel.

Date et lieu de soutenance

Jeudi 30 novembre 2017, 14h.

ENSEA, salle du conseil.

Résumé

Nous présentons les travaux de recherche effectués au sein du laboratoire ETIS (UMR 8051) depuis le recrutement comme Maître de Conférences à l'École Nationale Supérieure de l'Électronique et de ses Applications en 2010. Ces travaux sont centrés sur le développement d'outils d'apprentissage statistique pour l'indexation de contenus visuels tels que des images, des vidéos ou des objets 3D. Nous présentons nos contributions en quatre parties s'articulant en trois thématiques de recherche et un champ d'application. La première partie concerne l'apprentissage de représentations pour l'analyse des images. Dans ces travaux, nous nous sommes intéressés à résumer le contenu d'une image dans une représentation vectorielle permettant la comparaison rapide entre images afin de déterminer les contenus visuellement similaires. Nous avons proposé des représentations basées sur la linéarisation et la compression de fonctions noyaux d'appariement à l'aide d'un formalisme à tenseur. Ces représentations gardant les propriétés des fonctions noyaux originelles, nous pouvons alors les utiliser dans les machines à noyaux. Nous avons porté un regard attentif au passage à l'échelle des méthodes développées, et avons proposé des approches nécessitant à la fois peu de ressources de calcul et à faible coût de stockage. La seconde partie concerne l'apprentissage de représentations pour l'analyse de vidéos. Dans ces travaux, nous nous sommes intéressés dans un premier temps à l'évaluation des représentations de bas niveau utilisées dans les système de reconnaissance d'actions de la littérature. Nous avons proposé une méthode de génération de ces représentations qui permet d'explorer les différentes propriétés du signal vidéo utiles pour la reconnaissance. Afin de faire un choix optimal de ces propriétés, nous avons étendu notre méthode de génération de représentations au cadre des noyaux multiples (Multiple Kernel Learning) qui permet de faire une sélection des caractéristiques les plus pertinentes. Dans un second temps, nous nous sommes intéressés à la reconnaissance d'actions ou d'activités à partir d'information structurée telle que le squelette 3D des personnes présentes dans la vidéo. Nous avons proposé d'utiliser des méthodes issues de l'apprentissage de métrique pour optimiser les représentations basées sur des dictionnaires classiquement utilisées dans la littérature. Dans la troisième partie, nous nous sommes intéressés à l'apprentissage de représentation dans un contexte décentralisé dans lequel plusieurs machines reliées en réseaux possèdent des données (images, vidéos, ...) et cherchent à optimiser un modèle statistique commun. Nous avons opté pour l'utilisation de protocoles gossip dits sum-weight qui permettent de réaliser des moyennes pondérées de manière décentralisée et asynchrone. Nous avons alors proposé une ré-écriture des algorithmes classiquement utilisés dans l'apprentissage de représentations (clustering, réduction de dimension, classification linéaire) sous la forme de problèmes de moyennes pondérées décentralisées pour lesquels nous avons proposé des algorithmes très peu consommateurs en communication entre machines. Nous avons pu montrer dans la majorité des cas une équivalence entre les algorithmes centralisés initiaux et ceux que nous avons proposés. Nous avons également étendu ces travaux à l'apprentissage de réseaux de neurones profonds et montré que l'on pouvait distribuer efficacement l'apprentissage de ces modèles tout en gardant un faible coût de communication. Dans la quatrième partie, nous montrons les applications des travaux présentés précédemment aux collections issues du patrimoine culturel. Ces applications sont liées aux collaborations menées dans le cadre du labex Patrima d'une part et d'un réseau de collaborations internationales centrées sur la vision pour le patrimoine culturel d'autre part. Sur la base des travaux exposés, nous esquissons un projet de recherche qui couvre à la fois l'approfondissement des recherches menées ainsi que l'extension à des axes stratégiques pour les années à venir. Ces travaux ont été effectués dans le cadre de l'encadrement de quatre thèses de doctorat et le suivi de deux post-doctorats financés en totalité par des projets locaux (labex Patrima), nationaux ou internationaux.

Composition du jury

  • Stéphane CANU, Professeur des Universités, LITIS EA 4108 - INSA de Rouen. Rapporteur
  • Frédéric PRECIOSO, Professeur des Universités, I3S - UMR CNRS 7271 - Université de Nice Sophia Antipolis. Rapporteur
  • Stéphane MARCHAND-MAILLET, Professeur, VIPER, Université de Genève.
  • Nicole VINCENT, Professeur des Universités, LIPADE, Université Paris Descartes. Rapporteur
  • Florence D’ALCHÉ-BUC, Professeur, LTCI, Télécom Paristech. Examinatrice
  • Florent PERRONNIN, Deputy Lab Manager, Naver Labs Europe. Examinatrice
  • Dan VODISLAV, Professeur des Universités, ETIS, Université de Cergy-Pontoise.

Retour