Des heuristiques aux modèles linguistiques : un voyage à travers l’univers de l’interprétation des tableaux sémantiques avec DAGOBAH

Ce papier présente DAGOBAH SL 2022, un système d’interprétation sémantique de tableaux, qui a été continuellement amélioré au cours des quatre dernières années dans le cadre du défi SemTab. Cette année, nous avons augmenté la couverture des recherches grâce à l’utilisation de ressources externes, et intégré des modèles linguistiques afin d’améliorer la compréhension des en-têtes de tableaux. Nous avons également mis en œuvre diverses optimisations du système, conduisant à une réduction d’environ 30 % du temps d’exécution. Dans ce travail, nous mettons également en évidence l’intérêt des approches fondées sur l’apprentissage profond pour résoudre certaines ambiguïtés, et discutons des limites des corpus et des systèmes existants dans le développement futur de ce domaine de recherche.