SAÏS Fatiha
Habilitation à diriger des recherches
Equipe : Données et Connaissances Massives et Hétérogènes
Knowledge Graph Refinement: Link Detection, Link Invalidation, Key Discovery and Data Enrichment
Début le 01/01/1970
Direction :
Ecole doctorale : ED STIC 580
Etablissement d'inscription : vide
Lieu de déroulement :
Soutenue le 20/06/2019 devant le jury composé de :
Activités de recherche :
Résumé :
Ce mémoire d'habilitation décrit quelques méthodes et outils issus de mes activités de recherche au cours des dix dernières années ainsi que mes projets scientifiques pour un futur proche. Ces méthodes et outils ont été développés pour le raffinement de graphes de connaissances dans le contexte du Web de données. Nous assistons aujourd'hui à une production sans précédent de ressources publiées sous la forme de données liées (LOD). Cela a conduit à la création de graphes de connaissances (GC) contenant des milliards de triplets RDF (Resource Description Framework), tels que DBpedia, YAGO et Wikidata du côté académique, et Google Knowledge Graph ou eBay Knowledge Graph du côté commercial. Cependant, créer des graphes de connaissances tout en garantissant leur complétude et leur correction est un défi scientifique majeur. Les travaux que je présente dans Pour ce problème complexe, mes contributions de recherche ont porté sur plusieurs problématiques. Premièrement, le problème de la gestion de l’identité, pour lequel nous avons développé différentes approches pour invalider les liens d’identité existants en s’appuyant soit sur la sémantique des axiomes de l’ontologie pour détecter des incohérences dans le graphe de connaissances, ou en s’appuyant sur la structure topologique du graphe des liens d’identité pour attribuer un degré d’erreur à chaque lien d’identité du LOD. Deuxièmement, dans le contexte de graphes de connaissances scientifiques, nous avons développé une approche générique de détection de liens d'identité contextuels représentant une relation d'identité faible entre entités valide dans un contexte explicite, exprimé par une sous-partie de l'ontologie. Cette approche contribue au problème de la sémantique trop stricte du prédicat owl:sameAs, qui n’est pas requise dans tous les domaines d’application. Troisièmement, nous avons proposé une approche de fusion des données permettant d'agréger des données provenant de différentes sources et de calculer une représentation unique pour les ensembles d’entités liées. Nous avons également développé une approche qui exploite des techniques de liage de données et de raisonnement à partir de cas pour prédire des valeurs manquantes dans un graphe de connaissances scientifiques. Enfin, pour enrichir les graphes de connaissances par de nouveaux axiomes de clés qui sont particulièrement importants et utiles pour la détection de liens d’identité, nous avons développé trois méthodes efficaces de découverte de clés : KD2R, pour la découverte de clés exactes, SAKey pour la découverte de clés autorisant des exceptions et VICKEY pour la découverte de clés conditionnelles. Ces trois méthodes s’appuient sur le calcul de non-clés maximales d’abord, puis la dérivation des clés minimales, et appliquent plusieurs stratégies pour réduire l'espace de recherche.
Ces travaux ont été réalisés en collaboration avec plusieurs collègues chercheurs et enseignants chercheurs, dans le cadre de plusieurs thèses, post-docs et stages de masters; et pour certains dans le cadre de projets de recherche ANR, CNRS et industriels, impliquant différents organismes et entreprises, tels que, l’INRA, l’INA, l’ABES, l’IGN et Thalès.