Annotation sémantique des données tabulaires pour l'interopérabilité machine-à-machine via l'amarrage neuro-symbolique

Dans cet article, nous étudions l’annotation automatisée des données tabulaires à l’aide de technologies sémantiques combinées à des embeddings de réseaux neuronaux. Plus précisément, nous proposons un modèle d’ancrage dans lequel les types de propriétés et de cellules issus de l’espace d’embedding des données sont alignés sur les types de relations ontologiques et les types d’entités. Nous démontrons qu’en combinant la puissance du raisonnement symbolique, des embeddings neuronaux et la conception de fonctions de perte, une amélioration significative des performances peut être obtenue, atteignant jusqu’à 86 % pour l’annotation des propriétés de colonne, 82 % pour les types de colonne et 87 % pour les annotations de qualificateurs de colonne, sur la base d’extraites de tables provenant de DBpedia et Wikidata.