Intégration multi-relationnelle pour la représentation et l'analyse des graphes de connaissances
Les données multi-relationnelles, telles que les graphes de connaissances, les données bibliographiques et les réseaux d'information, sont omniprésentes dans les jeux de données du monde réel. La gestion, l'exploration et l'utilisation efficaces de ces ensembles de données volumineux et complexes posent des défis significatifs. Ces dernières années, les méthodes d’embedding multi-relationnelles sont apparues comme une approche nouvelle et efficace pour modéliser les données multi-relationnelles, en représentant à la fois les entités et les relations sous forme de vecteurs d’embedding dans un espace sémantique. Sur les graphes de connaissances, ces méthodes d’embedding visent à modéliser les interactions entre ces vecteurs d’embedding afin de prédire les liens relationnels entre entités. Ces approches d’embedding de graphes de connaissances résolvent une tâche fondamentale inhérente à la complétion des graphes de connaissances — la prédiction de liens — tout en fournissant des représentations d’embedding aux multiples applications potentielles. L’objectif de cette thèse est d’abord d’étudier les méthodes d’embedding multi-relationnelles sur les graphes de connaissances afin de proposer un nouveau modèle d’embedding capable d’expliquer et d’améliorer les approches antérieures, puis d’explorer les applications de ces méthodes dans la représentation et l’analyse des graphes de connaissances.Dans la première partie de cette thèse, nous étudions le cadre théorique des méthodes d’embedding de graphes de connaissances afin d’en expliquer les mécanismes et d’en améliorer les performances. Nous passons en revue et analysons la classe populaire des méthodes d’embedding basées sur l’alignement sémantique, en nous concentrant particulièrement sur les modèles d’état de l’art fondés sur le produit trilinéaire, tels que ComplEx. À partir de cette analyse, nous identifions deux aspects fondamentaux et complémentaires que tout modèle d’embedding de graphe de connaissances doit prendre en compte : l’efficacité computationnelle et l’expressivité du modèle. Les modèles antérieurs fondés sur le produit trilinéaire utilisent des mécanismes d’interaction spécialement conçus afin d’établir un compromis manuel entre ces deux aspects. Toutefois, ces mécanismes sont rigides et spécifiquement conçus, ce qui peut entraîner des performances sous-optimales ou une difficulté d’extension. Dans cette thèse, nous proposons le modèle d’interaction d’embedding à partitions multiples (MEI) basé sur la forme tensorielle par blocs, afin de traiter systématiquement ce problème. Le modèle MEI divise chaque vecteur d’embedding en un vecteur à partitions multiples, permettant ainsi une restriction efficace des interactions. Chaque interaction locale est modélisée à l’aide de la forme tensorielle de Tucker, tandis que l’interaction globale est modélisée par la forme tensorielle par blocs, ce qui permet au modèle de contrôler de manière fine le compromis entre expressivité et coût computationnel, tout en apprenant automatiquement les mécanismes d’interaction à partir des données. En combinant des formats avancés de représentation tensorielle et des techniques modernes d’apprentissage profond, le modèle MEI atteint des performances de pointe sur la tâche de prédiction de liens. Le cadre théorique du modèle MEI est ensuite utilisé comme mécanisme général d’embedding de graphes de connaissances pour analyser, expliquer et généraliser les modèles antérieurs. Nous établissons également des liens avec les embeddings de mots et les modèles de langage, offrant ainsi de nouvelles perspectives et généralisations.Dans la deuxième partie de la thèse, nous étudions la manière dont les embeddings multi-relationnels peuvent être appliqués à la représentation et à l’analyse des graphes de connaissances. Contrairement aux embeddings de mots, les structures sémantiques telles que la similarité ou les structures d’analogie dans l’espace d’embedding des graphes de connaissances ne sont pas encore bien étudiées, et ne sont donc généralement pas exploitées pour la représentation et l’analyse des données. Afin de démontrer l’utilité des embeddings multi-relationnels, nous formalisons un cadre pour la représentation et l’analyse des données basé sur des requêtes sémantiques dans l’espace d’embedding multi-relationnel. Nous construisons un graphe de connaissances à partir de données scientifiques et montrons comment diverses tâches sur les jeux de données d’origine peuvent être approximées par des requêtes sémantiques appropriées, qui sont des opérations algébriques multi-linéaires dans l’espace d’embedding multi-relationnel. Nous étudions également théoriquement la tâche de raisonnement par analogie entre entités dans l’espace d’embedding multi-relationnel, qui peut être formulée comme une tâche de requête relationnelle ouverte par exemple, impliquant des requêtes relationnelles sur des relations inconnues. En exploitant les connexions mathématiques établies entre les embeddings de graphes de connaissances et les embeddings de mots, nous analysons les structures sémantiques présentes dans l’espace d’embedding des graphes de connaissances et proposons une solution potentielle à la tâche de raisonnement par analogie entre entités. L’objectif de cette recherche est d’explorer les applications potentielles des progrès récents en embedding multi-relationnel pour la représentation et l’analyse des données, en particulier pour améliorer leur efficacité dans le contexte des données scientifiques.