>>

Intégration de données

Mots-clés

Bases de données, Web, flux d’information, réseaux sociaux, données ouvertes, données du patrimoine, données multimédia

Description

L’objectif de l’activité « Intégration de données » est de proposer des modèles, des techniques et des outils pour l’intégration efficace à grande échelle de données sur le Web. Dans ce contexte nous nous intéressons principalement à trois catégories de données :

    • Les flux d’information sur le Web : intégration à très large échelle de flux textuels (de type RSS) ou issus des échanges sur les réseaux sociaux.

      Nous nous sommes intéressés aux flux d’information de type RSS dans le cadre du projet ANR ROSES (2008-2011), en proposant un modèle de requêtes continues complexes pour créer des flux personnalisés, une méthode originale d’optimisation multi-requêtes à très large échelle basée sur un modèle de coût et le logiciel libre ROSES basé sur ces techniques [1], [2].
      Actuellement, nous étudions le contexte plus riche des flux de messages issus des réseaux sociaux (thèse A. Alkhouli, 2012-). L’objectif est de proposer des méthodes d’optimisation de requêtes continues top-k sur les flux de messages, en intégrant les dimensions sociale et temporelle dans le modèle.
  • Les données multimédia : requêtes top-k multicritères, avec application aux données multimédia.

    Nous avons considéré le problème des requêtes top-k multicritères, où chaque critère est évalué par un prédicat produisant un score de similarité, en proposant de nouvelles heuristiques, un cadre général pour la comparaison de ce type d’algorithmes et une étude des requêtes top-k approximatives [3] (thèse M. Badr, 2009-2013). 
    En collaboration avec l’axe « Systèmes de recherche multimédia » de l’équipe, nous avons proposé de nouvelles méthodes de recherche k-ppv approximative (k plus proches voisins) dans les bases de données multimédia de grande taille, stockées sur disque : une méthode inspirée de l’évaluation des requêtes top-k [4] et une amélioration de l’algorithme Multi-probe LSH sur disque [5].
  • Le Web de données : données ouvertes (« linked open data ») pour le patrimoine culturel.

    Dans le cadre du LabEx PATRIMA, nous nous intéressons au problème de l’intégration de données décrivant les objets du patrimoine culturel, en s’appuyant sur le modèle « Linked Open Data » du Web de données. Dans ce contexte, nous avons abordé en premier lieu l’intégration de sources culturelles et de sources du Web de données sous forme d’espaces de données RDF (thèse M. Koutraki, en codirection avec le PRISM, 2012-, voir projet EDOP).

Participants

Dan VODISLAV (PU), Tuyet Trâm DANG NGOC (MCF), Boris BORZIC (IR), Mehdi BADR (doctorant), Maria KOUTRAKI (doctorante), Abdulhafiz ALKHOULI (doctorant)

Projets en cours

EDOP (2012-2015)

EDOP est un projet PATRIMA, qui vise la conception et la réalisation d’un espace de données ouvertes (« linked open data ») pour le patrimoine culturel. L’objectif du projet est d’explorer la publication dans cet espace de sources de données culturelles de différents types, avec diverses structures et contraintes d’accès, à côté de sources du Web de données public. Ensuite, le projet vise la définition de méthodes d’intégration graduelle et avec des garanties de qualité de chaque source culturelle dans l’espace de données global, à travers de liens ciblés vers les autres sources.

Partenaires : laboratoire PRISM (UVSQ), Bibliothèque nationale de France, Centre de recherche du Château de Versailles, Musée Rodin.

Site web du projet.

Collaborations

  • B. Amann (LIP6),
  • V. Christophides (FORTH),
  • N. Preda (PRISM),
  • N. Travers (CNAM),
  • S. Yin (IRIT)

Publications représentatives

[1] Creus J., Amann B., Christophides V., Travers N., Vodislav D. « RoSeS, un moteur de requêtes continues pour la syndication RSS à large échelle », Ingénierie des Systèmes d'Information (ISI) 17, 5 (2012)

[2] Creus J., Amann B., Travers N., Vodislav D. “RoSeS: a continuous query processor for large-scale RSS filtering and aggregation”, CIKM 2011

[3] Badr M., Vodislav D. “Generic top-k query processing with breadth-first strategies”, DEXA 2013

[4] Badr M., Vodislav D., Picard D., Yin S., Gosselin P., “Multi-criteria Search Algorithm: An Efficient Approximate k-NN Algorithm for Image Retrieval”, ICIP 2013

[5] Yin S., Badr M., Vodislav D. “Dynamic Multi-Probe LSH: an I/O Efficient Index Structure for Approximate Nearest Neighbor Search”, DEXA 2013