>>

Soutenance de thèse : Mehdi Badr

Titre de la thèse

Traitement de requêtes top-k multicritères et application à la recherche par le contenu dans les bases de données multimédia.
Multicriteria top-k query processing and application to content-based search in multimedia databases.

Date et lieu de soutenance

Lundi 7 octobre 2013, 14h.
Université de Cergy-Pontoise, St-Martin, amphi Espace Colloques.

Résumé

Le développement des techniques de traitement des requêtes de classement est un axe de recherche très actif dans le domaine de la recherche d’information. Plusieurs applications nécessitent le traitement des requêtes de classement multicritères, telles que les méta-moteurs de recherche sur le web, la recherche dans les réseaux sociaux, la recherche dans les bases de documents multimédia, etc. Contrairement aux requêtes booléennes traditionnelles, dans lesquelles le filtrage est basé sur des prédicats qui retournent vrai ou faux, les requêtes de classement utilisent des prédicats de similarité retournant un score de pertinence. Ces requêtes spécifient une fonction d’agrégation qui combine les scores individuels produits par les prédicats de similarité permettant de calculer un score global pour chaque objet. Les k objets avec les meilleurs scores globaux sont retournés dans le résultat final.

Dans cette thèse, nous étudions dans un premier temps les techniques et algorithmes proposés dans la littérature conçus pour le traitement des requêtes top-k multicritères dans des contextes spécifiques de type et de coût d’accès aux scores, et nous proposons un cadre générique capable d’exprimer tous ces algorithmes. Ensuite, nous proposons une nouvelle stratégie en largeur «breadth-first», qui maintient l’ensemble courant des k meilleurs objets comme un tout, à la différence des stratégies en profondeur habituelles qui se focalisent sur le meilleur candidat. Nous présentons un nouvel algorithme «Breadth-Refine» (BR), basé sur cette stratégie et adaptable à n’importe quelle configuration de type et de coût d’accès aux scores. Nous montrons expérimentalement la supériorité de l’algorithme BR sur les algorithmes existants.

Dans un deuxième temps, nous proposons une adaptation des algorithmes top-k à la recherche approximative, dont l’objectif est de trouver un compromis entre le temps de recherche et la qualité du résultat retourné. Nous explorons l’approximation par arrêt prématuré de l’exécution et proposons une première étude expérimentale du potentiel d’approximation des algorithmes top-k.

Dans la dernière partie de la thèse, nous nous intéressons à l’application des techniques top-k multicritères à la recherche par le contenu dans les grandes bases de données multimédia. Dans ce contexte, un objet multimédia (une image par exemple) est représenté par un ou plusieurs descripteurs, en général sous forme de vecteurs numériques qui peuvent être vus comme des points dans un espace multidimensionnel. Nous explorons la recherche des k plus proches voisins (k-ppv) dans ces espaces et proposons une nouvelle technique de recherche k-ppv approximative «Multi-criteria Search Algorithm» (MSA) basée sur les principes des algorithmes top-k. Nous comparons MSA à des méthodes de l’état de l’art dans le contexte des grandes bases multimédia où les données ainsi que les structures d’index sont stockées sur disque, et montrons qu’il produit rapidement un très bon résultat approximatif.

Mots-clefs

recherche multicritères,algorithmes top-k,recherche par le contenu,indexation multimédia

Abtsract

Efficient processing of ranking queries is an important issue in today information retrieval applications such as meta-search engines on the web, information retrieval in social networks, similarity search in multimedia databases, etc.  We address the problem of top-k multi-criteria query processing, where queries are composed of a set of ranking predicates, each one expressing a measure of similarity between data objects on some specific criteria. Unlike traditional Boolean predicates returning true or false, similarity predicates return a relevance score in a given interval. The query also specifies an aggregation function that combines the scores produced by the similarity predicates. Query results are ranked following the global score and only the best k ones are returned.

In this thesis, we first study the state of the art techniques and algorithms designed for top-k multi-criteria query processing in specific conditions for the type of access to the scores and cost settings, and propose a generic framework able to express any top-k algorithm. Then we propose a new breadth-first strategy that maintains the current best k objects as a whole instead of focusing only on the best one such as in all the state of the art techniques. We present Breadth-Refine (BR), a new top-k algorithm based on this strategy and able to adapt to any combination of source access types and to any cost settings. Experiments clearly indicate that BR successfully adapts to various settings, with better results than state of the art algorithms.

Secondly, we propose an adaptation of top-k algorithms to approximate search aiming to a compromise between execution time and result quality. We explore approximation by early stopping of the execution and propose a first experimental study of the approximation potential of top-k algorithms.

Finally, we focus on the application of multi-criteria top-k techniques to Large Scale Content-Based Image Retrieval. In this context an image is represented by one or several descriptors, usually numeric vectors that can be seen as points in a multidimensional space. We explore the k-Nearest Neighbors search on such space and propose “Multi-criteria Search Algorithm” (MSA) a new technique for approximate k-NN based on multi-criteria top-k techniques. We compare MSA with state of the art methods in the context of large multimedia databases, where the database and the index structure are stored on disk, and show that MSA quickly produces very good approximate results.

Keywords

multicriteria search,top-k algorithms,content-based search,multimedia indexing

Composition du jury

  • Bernd AMANN, Professeur des universités, Université Paris 6, rapporteur
  • Michel CRUCIANU, Professeur, Conservatoire des Arts et metiers, rapporteur
  • Karine ZEITOUNI, Professeur des Universités, Université de Versailles Saint-Quentin en Yvelines, examinateur
  • Dominique LAURENT, Professeur des universités, Université de Cergy-Pontoise, examinateur
  • Philippe-Henri GOSSELIN, Professeur, ENSEA, examinateur
  • Cristian Dan VODISLAV, Professeur des universités, Université de Cergy Pontoise, directeur de thèse

Retour