>>

Soutenance de thèse : Inès Hilali Jaghdam

Titre de la thèse

Fouille de règles d'association disjonctives à partir d'itemsets non fréquents.

Mining disjunctive association rules from unfrequent itemsets.

Date et lieu de soutenance

Vendredi 18 décembre 2015.

Université de Cergy-Pontoise, site de St-Martin 1, salle B230.

Résumé

L'Extraction de Connaissances à partir de bases de Données vise à exploiter des grandes masses de données afin d'en extraire des connaissances nouvelles et utiles. La fouille de données, l'étape coeur de ECD, regroupe un ensemble de techniques telles que : le clustering, la classification, l'extraction de règles d'association, etc. Notre contribution se situe dans le cadre de l'extraction de règles d'association. Contrairement aux approches traditionnelles, nous nous intéressons aux items non fréquents à partir desquels des itemsets appelés disjonctifs-fréquents sont construits (un itemset est disjonctif-fréquent si le nombre de transactions contenant au moins de ses éléments est supérieur à un seuil fixé). En plus, afin de limiter le nombre de motifs extraits, nous supposons une ontologie définie sur l'ensemble de tous les items. Cette ontologie permet de définir une mesure d'homogénéité sur les itemsets et ainsi, de ne considérer que les itemsets disjonctifs-fréquents dont la mesure d'homogénéité est supérieure à un seuil donné. Enfin, les itemsets disjonctifs-fréquents homogènes sont utilisés pour la construction de règles d'association. Nos algorithmes ont été testés sur différents jeux de données, notamment sur des données réelles.

Mots-clefs

itemset disjonctif-fréquent minimal, itemsets homogènes, règles d'association disjonctives intéressantes.

Abstract

Knowledge Discovery in Databases aims to exploit hudge volume of data to extract new and potentially useful knowledge. Data mining, the fundamental step of KDD, is built around a set of techniques such as clustering, classification. Our contribution concerns the extraction of association rules. More precisely, and contrary to standard approaches, we are interested in unfrequent items from which itemsets that we call disjunctive-frequent are built up (an itemset is said to be disjunctive-frequent if the number of transactions containing at least one of its elements is greater than a given threshold). Moreover, in order to restrict the number of mined patterns, we assume that an ontology is defined over the set of all items. Based on this ontology, we define a homogeneity measure over itemsets, so as to consider only those disjunctive-frequent itemsets whose homogeneity measure is above a given threshold. In this framework, we have designed and implemented algorithms for mining these patterns. These algorithms have been tested on various datasets, either synthetic or real.

Keywords

minimal disjunctive-frequent itemset, homogneous itemsts, disjunctive interesting association rules.

Composition du jury

  • Dominique LAURENT, Professeur, Université de Cergy Pontoise, Directeur de thèse
  • Sadok BEN YAHIA, Professeur, Faculté des Sciences de Tunis, Co-directeur de thèse
  • Tao-Yuan JEN, MCF, Université de Cergy Pontoise, Co-encadrant de thèse
  • Nadia ESSOUSSI, MCF HDR, Faculté des Sciences Economiques et de Gestion de Nabeul, Rapporteur
  • Arnaud GIACOMETTI, Professeur, Université François Rabelais, Tours, Rapporteur
  • Mohamed Mohsen GAMMOUDI, Professeur, Université de Manouba, Examinateur
  • Nicolas  SPYRATOS, Professeur, LRI, Université Paris Sud, Examinateur

Go back