>>

Soutenance de thèse : Alexis Lechervy

Titre de la thèse

Apprentissage interactif et multi-classes pour la détection de concepts sémantiques dans les données multimédia.
Interactive and multi-class Learning to detect semantic concepts in the multimedia data.

Date et lieu de soutenance

Jeudi 6 décembre 2012, 14h.
Université de Cergy-Pontoise, site des Chênes 2, salle des thèses.

Résumé

Récemment les techniques d'apprentissage automatique ont montré leurs capacité à identifier des catégories d'images à partir de descripteurs extraits de caractéristiques visuels des images. Face à la croissance du nombre d'images et du nombre de catégories à traiter, plusieurs techniques ont été proposées pour réduire à la fois le coût calculatoire des méthodes et l'investissement humain en terme de supervision. Dans cette thèse, nous proposons deux méthodes qui ont pour objectif de traiter un grand nombre d'images et de catégories. Nous proposons tout d'abord une solution reposant sur le concept de recherche interactive. Le protocole de recherche interactive propose d'établir un « dialogue » entre le système d'apprentissage et l'utilisateur afin de minimiser l'effort d'annotation. Nous avons voulu dans ces travaux proposer une solution de recherche interactive adaptée aux méthodes de boosting. Ces méthodes combinent des classifieurs faibles pour produire un classifieur plus fort. Nous avons proposé une méthode de boosting interactif pour la recherche dans les images qui fit l'objet de deux articles (RFIA 2010, ICPR 2010). Ces méthodes proposent notamment une nouvelle manière de construire l'ensemble des classifieurs faibles sélectionnables par le boosting.

Dans un second temps nous nous sommes consacré plus particulièrement aux méthodes à noyaux dans un contexte d'apprentissage plus classique. Ces méthodes ont montré de très bon résultats mais le choix de la fonction noyau et son réglage reste un enjeu important. Dans ces travaux, nous avons mis en place une nouvelle méthode d'apprentissage de fonctions noyau multi-classes pour la classification de grande base d'images. Nous avons choisi d'utiliser un framework inspiré des méthodes de boosting pour créer un noyau fort à partir d'une combinaison de noyau plus faible. Nous utilisons la dualité entre fonction noyau et espace induit pour construire un nouvel espace de représentation des données plus adapté à la catégorisation. L'idée de notre méthode est de construire de manière optimale ce nouvel espace de représentation afin qu'il permette l'apprentissage d'un nouveau classifieur plus rapide et de meilleure qualité. Chaque donnée multimédia sera alors représentée dans cet espace sémantique en lieu et place de sa représentation visuelle. Pour reproduire une approche similaire à une méthode de boosting, nous utilisons une construction incrémentale où des noyaux faibles sont entraînés dans une direction déterminée par les erreurs de l'itération précédente. Ces noyaux sont combinés à un facteur de pondération près, calculé grâce à la résolution analytique d'un problème d'optimisation. Ces travaux se basent sur des fondements mathématiques et font l'objet d'expériences montrant son intérêt pratique par comparaison avec les méthodes les plus récentes de la littérature. Ceux-ci sont présentés dans deux articles à Esann 2012 et ICIP 2012 ainsi que dans une soumission à MTAP.

Recent machine learning techniques have demonstrated their capability for identifying image categories using image features. Among these techniques, Support Vector Machines (SVM) present the best results, particularly when they are associated with a kernel function. However, nowadays image categorization task is very challenging owing to the sizes of benchmark datasets and the number of categories to be classified. In such a context, lot of effort has to be put in the design of the kernel functions and underlying high-level features. In this talk, we propose a new method to learn a kernel function for image categorization in large image databases. Our learning method is made of two steps : first, a kernel is built and semantic features are deduced ; then each class is learn thanks to a standard SVM. We adopt a Boosting framework to design and combine weak kernel functions targeting an ideal kernel. We propose a new iterative algorithm inspired from Boosting, to create a strong kernel. The weak kernels are learn thanks to the duality between the kernel space and the semantic feature space. We show that our method actually builds mapping functions which turn the initial input space to a new feature space where categories are better classified. Furthermore, our algorithm benefits from Boosting process to learn this kernel with a complexity linear with the size of the training set. Experiments are carried out on popular benchmarks and databases to show the properties and behavior of the proposed method. On the PASCAL VOC2006 database, we compare our method to simple early fusion, and on the Oxford Flowers databases we show that our method outperforms the best MKL techniques of the literature.

Composition du jury

  • Richard NOCK, Professeur, Université des Antilles et de la Guyane, Rapporteur
  • Stéphane MARCHAND-MAILLET, Professeur associé, Université de Genève, Rapporteur
  • Matthieu CORD, Professeur, Université Pierre et Marie Curie, Examinateur
  • Sébastien LEFEVRE, Professeur, Université de Bretagne Sud, Examinateur
  • Véronique SERFATY, Docteur, DGA / MRIS, Examinateur
  • Philippe-Henri GOSSELIN, Professeur, ENSEA, Directeur de thèse
  • Frédéric PRECIOSO, Professeur, Université de Nice-Sophia Antipolis, Co-directeur de thèse

Retour