Query2box : Raisonnement sur les graphes de connaissances dans l'espace vectoriel à l'aide d'embeddings de boîtes

Répondre à des requêtes logiques complexes sur de grands graphes de connaissances (GC) incomplets est une tâche fondamentale mais difficile. Récemment, une approche prometteuse pour résoudre ce problème a consisté à plonger les entités du GC ainsi que la requête dans un espace vectoriel de telle manière que les entités répondant à la requête soient plongées près de celle-ci. Cependant, les travaux antérieurs modélisent les requêtes comme des points uniques dans l'espace vectoriel, ce qui pose problème car une requête complexe représente potentiellement un grand ensemble d'entités répondant à cette requête, et il n'est pas clair comment un tel ensemble peut être représenté par un seul point. De plus, les travaux antérieurs ne peuvent traiter que des requêtes utilisant des conjonctions ($\wedge$) et des quantificateurs existentiels ($\exists$). Le traitement des requêtes avec des disjonctions logiques ($\vee$) reste un problème ouvert. Nous proposons ici query2box, un cadre basé sur le plongement pour raisonner sur des requêtes arbitraires utilisant les opérateurs $\wedge$, $\vee$ et $\exists$ dans de grands et incomplets GC. Notre principale intuition est que les requêtes peuvent être plongées sous forme de boîtes (c'est-à-dire d'hyper-rectangles), où l'ensemble des points à l'intérieur de la boîte correspond à l'ensemble des entités répondant à la requête. Nous montrons que les conjonctions peuvent être naturellement représentées comme intersections de boîtes et nous prouvons également un résultat négatif selon lequel le traitement des disjonctions nécessiterait un plongement dont la dimension serait proportionnelle au nombre d'entités du GC. Cependant, nous démontrons que, en transformant les requêtes en forme normale disjonctive, query2box est capable de traiter des requêtes logiques arbitraires utilisant $\wedge$, $\vee$ et $\exists$ de manière scalable. Nous illustrons l'efficacité de query2box sur trois grands GC et montrons que query2box réalise jusqu'à 25 % d'amélioration relative par rapport à l'état de l'art.