>>

Soutenance de thèse : Maria Koutraki

Titre de la thèse

Approaches Towards Unified Models for Integrating Web Knowledge Bases.

Date et lieu de soutenance

Mardi 27 septembre 2016, 14h.

Université de Versailles Saint-Quentin-en-Yvelines
UFR des Sciences - Salle 301- Bâtiment Descartes
45 Avenue des Etats-Unis, 78035 Versailles Cedex

Résumé

Cette thèse s’est déroulée dans le cadre du projet Patrima EDOP, dont l’objectif a été la conception et la création d’un espace de données pour le patrimoine culturel à partir bases de connaissances RDF et des services Web, dans un contexte Web sémantique. Une des idées de base du Web sémantique est que les données peuvent être partagées au-delà des limites des applications et des sites web. Une application particulière du Web sémantique est celle des données liées, constituant des ressources dans le web des données et généralement publiées au format RDF. Elle permet le partage et l'accès aux données d'une manière décentralisée. Ceci a conduit à l’émergence de nombreuses initiatives de données liées, dont le projet phare Linked Open Data (LOD). On compte aujourd’hui des milliers de jeux de données formant des milliards de triplets RDF. Cependant, le LOD est encore à ses débuts, car s’il a permis de rendre les données accessibles sur le Web, il est loin d’avoir atteint son objectif initial qui est d'accéder de manière uniforme à travers le Web à des données de sources différentes. Dans cette thèse, nous identifions plusieurs défis qui entravent la réalisation de l'objectif initial du web sémantique, visé par l'initiative Linked Data.

La question est : Comment pouvons-nous accéder uniformément à toutes les ressources publiées dans le cadre de LOD indépendamment de leur source, du type de données, du mode d'accès ou de la structure de données ? L'objectif principal de ce travail est de proposer des approches qui abordent ces défis, en mettant en avant un modèle permettant d’interroger de manière uniforme et d’intégrer des données provenant de sources ayant des structures hétérogènes, à savoir des sources de données RDF ou des services Web.

Dans ce contexte, la première contribution de cette thèse est la proposition du système DORIS pour un accès uniforme aux services Web et qui permet d'enrichir une base de connaissances cible.

La seconde contribution est une approche d'alignement basée sur les instances des relations des sources RDF. Partant d’une relation donnée et de la base de connaissances, cette approche permet de découvrir les liens de subsomption avec des relations d’une base de connaissances de cible. Pour ce faire, elle utilise des techniques d’apprentissage.

Abstract

This thesis is part of the EDOP Patrima project, who aims at designing and creating a cultural heritage dataspace from RDF knowledge bases and Web services in a Semantic Web context. One of the core visions of the Semantic Web is that data can be shared across the boundaries of applications and websites. A particular application of Semantic Web is Linked Data, which publishes data as Web Data in RDF format. It enables sharing and accessing data in a decentralized manner. This is has led to the rise of many Linked Data initiatives, with its most successful project Linked Open Data (LOD), which at this time numbers thousands of datasets, and with a magnitude of billions of triples. The LOD is still in its beginnings and apart from making data accessible across the Web, however, it has a long way to go to accomplish its original goal of uniformly accessing data across the Web and datasets. In this thesis we identify several challenges that hinder the fulfillment of the original goal of the Semantic Web, respectively the Linked Data initiative. We pose the following question that we try to address in this thesis: How do we uniformly accessing all the resources published as part of the LOD independent of their source, data type, access mode or data structure?

The main focus of this thesis will be at understanding and proposing approaches that tackle these challenges, towards a model for uniformly integrating data coming from different datasets with heterogeneous structures, i.e. RDF datasets or Web service APIs.

The first contribution of the thesis is a system called DORIS that enables a uniform access to Web service sources with the purpose of enriching a target knowledge base. The key idea of our approach is to exploit the intersection of Web service call results with a knowledge base and with other call results. Specifically, we model an API method as a view with binding patterns over a global RDF schema. We present an algorithm that can automatically infer the view definition of a method in the global schema. We also show how to compute transformation functions that can transform API call results into this schema. Our experiments on real Web services show that we can automatically infer the schema with high precision.

Secondly, we propose an on-line instance-based relation alignment approach between RDF datasets. For a given relation and knowledge base, we uncover sub-relations on a target knowledge base. Our approach works under minimal supervision in which for a relation pair we measure the alignment confidence through association rule mining techniques that work under the open and closed world assumption. We apply such techniques under partial information for a small sample of common entities in two KBs and that serve as subject/object values for the query relation. We perform an extensive evaluation of our approach on three real-world knowledge bases, DBpedia, YAGO and Freebase. We show that we can perform the relation alignment with high accuracy.

Composition du jury

  • M. Vodislav Dan, Professeur, Université Cergy-Pontoise (co-directeur de thèse)
  • Mme Preda Nicoleta, Maître de Conférences, UVSQ (co-encandrante de thèse)
  • Mme Zeitouni Karine,  Professeure, UVSQ (directrice de thèse)
  • M. Christophides Vassilis, Professeur, Université de Crète (rapporteur)
  • Mme Rousset Marie-Christine, Professeure, Université de Grenoble (rapporteur)
  • M. Amann Bernd, Professeur, Université Pierre & Marie Curie (examinateur)
  • M. Goasdoué François, Professeur, Université de Rennes 1 (examinateur)
  • Mme Saïs Fatiha, Maître de Conférences, Université Paris-Sud (examinatrice)

Go back