BoxE : un modèle d'embedding par boîtes pour la complétion des bases de connaissances

La complétion des bases de connaissances (KBC) vise à inférer automatiquement des faits manquants en exploitant les informations déjà présentes dans une base de connaissances (KB). Une approche prometteuse pour la KBC consiste à plonger les connaissances dans des espaces latents et à effectuer des prédictions à partir des embeddings appris. Toutefois, les modèles d’embedding existants sont soumis à au moins une des limitations suivantes : (1) une inexpressivité théorique, (2) un manque de prise en charge des schémas d’inférence importants (par exemple, les hiérarchies), (3) une absence de prise en charge de la KBC sur des relations à arité supérieure, et (4) une impossibilité d’intégrer des règles logiques. Dans cet article, nous proposons un modèle d’embedding spatio-translatoire, appelé BoxE, qui traite simultanément toutes ces limitations. BoxE représente les entités par des points et les relations par des hyperrectangles (ou boîtes), qui caractérisent spatialement des propriétés logiques fondamentales. Cette abstraction apparemment simple conduit à un modèle pleinement expressif, offrant une encodage naturel pour de nombreuses propriétés logiques souhaitées. BoxE permet à la fois de capturer et d’injecter des règles issues de classes riches de langages de règles, dépassant largement les schémas d’inférence individuels. Par conception, BoxE s’applique naturellement aux KBs à arité supérieure. Nous menons une analyse expérimentale détaillée et montrons que BoxE atteint des performances de pointe, tant sur des graphes de connaissances standards que sur des KBs plus généraux, tout en démontrant empiriquement la puissance de l’intégration de règles logiques.