>>

Soutenance de thèse : Romain Négrel

Titre de la thèse

Représentations optimales pour la recherche dans les bases d'images patrimoniales.

Optimal representation for searching the image databases heritage.

Date et lieu de soutenance

Mercredi 3 décembre 2014, 13h30.

ENSEA, 6, avenue du Ponceau, Cergy, salle du Conseil (plan d'accès).

La soutenance sera également diffusée sur Ximinds :

Résumé de la thèse

Depuis plusieurs décennies, le développement des technologies de numérisation et de stockage ont permis la mise en œuvre de nombreux projets de numérisation du patrimoine culturel. L'approvisionnement massif et continu de ces bases de données numériques du patrimoine culturel entraîne de nombreux problèmes d'indexation. En effet, il n'est plus possible d'effectuer une indexation manuelle de toutes les données. Pour indexer et rendre accessible facilement les données, des méthodes d'indexation automatique et d'aide à l'indexation se sont développées depuis plusieurs années. Cependant, les méthodes d'indexation automatique pour les documents non-textuels (image, vidéo, son, modèle 3D, …) sont encore complexes à mettre en œuvre pour de grands volumes de données. Dans cette thèse, nous nous intéressons en particulier à l'indexation automatique d'images. Pour effectuer des tâches d'indexation automatique ou d'aide à l'indexation, il est nécessaire de construire une méthode permettant d'évaluer la similarité entre deux images.

Nos travaux sont basés sur les méthodes à signatures d'image ; ces méthodes consistent à résumer le contenu visuel de chaque image dans une signature (vecteur unique), puis d'utiliser ces signatures pour calculer la similarité entre deux images. Pour extraire les signatures, nous utilisons la chaîne d'extraction suivante : en premier, nous extrayons de l'image un grande nombre de descripteurs locaux ; puis nous résumons l'ensemble de ces descripteurs dans une signature de grande dimension ; enfin nous réduisons fortement la dimension de la signature. Les signatures de l'état de l'art basées sur cette chaîne d'extraction permettent d'obtenir de très bonnes performance en indexation automatique et en aide à l'indexation. Cependant, les méthodes de l'état de l'art ont généralement de forts coûts mémoires et calculatoires qui rendent impossible leurs mise en œuvre sur des grands volumes de données.

Dans cette thèse, notre objectif est double : d'une part nous voulons améliorer les signatures d'images pour obtenir de très bonnes performances dans les problèmes d'indexation automatique ; d'autre part, nous voulons réduire les coûts de la chaîne de traitement, pour permettre le passage à l'échelle. Nous proposons des améliorations d'une signature d'image de l'état de l'art nommée VLAT (Vectors of Locally Aggregated Tensors). Ces améliorations permettent de rendre la signature plus discriminante tout en réduisant sa dimension. Pour réduire la dimension des signatures, nous effectuons une projection linéaire de la signature dans un espace de petite dimension.

Nous proposons deux méthodes pour obtenir des projecteurs de réduction de dimension tout en conservant les performances des signatures d'origine. Notre première méthode consiste à calculer les projecteurs qui permettent d'approximer le mieux possible les scores de similarités entre les signatures d'origine. La deuxième méthode est basée sur le problème de recherche de quasi-copies ; nous calculons les projecteurs qui permettent de respecter un ensemble de contraintes sur le rang des images dans la recherche par rapport à l'image requête. L'étape la plus coûteuse de la chaîne d'extraction est la réduction de dimension de la signature à cause de la grande dimension des projecteurs. Pour les réduire, nous proposons d'utiliser des projecteurs creux en introduisant une contrainte de parcimonie dans nos méthodes de calcul des projecteurs. Comme il est généralement complexe de résoudre un problème d'optimisation avec une contrainte de parcimonie stricte, nous proposons pour chacun des problèmes une méthode pour obtenir une approximation des projecteurs creux recherchés. L'ensemble de ces travaux font l'objet d'expériences montrant l'intérêt pratique des méthodes proposées par comparaison avec les méthodes de l'état de l'art.

Mots-clefs

Patrimoine, Recherche par similarité, Classification d'image.

Abstract

In the last decades, the development of scanning and storing technologies resulted in the development of many projects of cultural heritage digitization. The massive and continuous flow of numerical data in cultural heritage databases causes many problems for indexing. Indeed, it is no longer possible to perform a manual indexing of all data. To index and ease the access to data, many methods of automatic and semi-automatic indexing have been proposed in the last years. The current available methods for automatic indexing of non-textual documents (images, video, sound, 3D model, ...) are still too complex to implement for large volumes of data. In this thesis, we focus on the automatic indexing of images. To perform automatic or semi-automatic indexing, it is necessary to build an automatic method for evaluating the similarity between two images.

Our work is based on image signature methods ; these methods involve summarising the visual content of each image in a signature (single vector), and then using these signatures to compute the similarity between two images. To extract the signatures, we use the following pipeline: First, we extract a large number of local descriptors of the image; Then we summarize all these descriptors in a large signature; Finally, we strongly reduce the dimensionality of the resulting signature. The state of the art signatures based on this pipeline provide very good performance in automatic indexing. However, these methods generally incur high storage and computational costs that make their implementation impossible on large volumes of data.

In this thesis, our goal is twofold : First, we wish to improve the image signatures to achieve very good performance in automatic indexing problems ; Second, we want to reduce the cost of the processing chain to enable scalability. We propose to improve an image signature of the state of the art named VLAT (Vectors of Locally Aggregated Tensors). Our improvements increase the discriminative power of the signature. To reduce the size of the signatures, we perform linear projections of the signatures in a lower dimensional space.

We propose two methods to compute the projectors while maintaining the performance of the original signatures. Our first approach is to compute the projectors that best approximate the similarities between the original signatures. The second method is based on the retrieval of quasi-copies; We compute the projectors that meet the constraints on the rank of retrieved images with respect to the query image. The most expensive step of the extraction pipeline is the dimentionality reduction step; these costs are due to the large dimentionality of the projectors. To reduce these costs, we propose to use sparse projectors by introducing a sparsity constraint in our methods. Since it is generally complex to solve an optimization problem with a strict sparsity constraint, we propose for each problem a method for approximating sparse projectors. This thesis work is the subject of experiments showing the practical value of the proposed methods in comparison with existing methods.

Keywords

Heritage, Similarity search, Image classification.

Composition du jury

  • Philippe-Henri GOSSELIN, Professeur, ETIS/ENSEA - Université de Cergy-Pontoise - CNRS, UMR 8051, Directeur de thèse
  • David PICARD, Maitre de conference, ETIS/ENSEA - Université de Cergy-Pontoise - CNRS, UMR 8051, Co-encadrant de thèse
  • Florent PERRONNIN, Directeur de recherche, Xerox Research Centre Europe, Rapporteur
  • Georges QUENOT, Directeur de recherche, CNRS - Laboratoire d'Informatique de Grenoble - Groupe MRIM, Rapporteur
  • Bernard MERIALDO, Professeur, Eurecom - Communications Multimédia, Examinateur
  • Frédéric JURIE, Professeur, Université de Caen (GREYC - CNRS UMR-6072), Examinateur

Retour