TorchicTab : Annotation sémantique de tables avec Wikidata et modèles linguistiques

Une quantité importante de données tabulaires existe et est utilisée par un large éventail d'applications. Toutefois, une grande partie de ces données manque d'information sémantique nécessaire pour permettre à la fois aux utilisateurs et aux machines de les comprendre correctement. Ce manque de compréhension sémantique des tables entrave leur utilisation dans les chaînes d'analyse de données. Des solutions existent pour interpréter sémantiquement les tables, mais elles sont souvent centrées sur des tâches d'annotation spécifiques et des types de tables particuliers, et dépendent de grandes bases de connaissances, ce qui rend difficile leur réutilisation dans des contextes réels. Par conséquent, des systèmes plus robustes capables de produire des annotations plus précises et d'adapter leur fonctionnement à différents types de tables sont nécessaires. Le SemTab (Semantic Web Challenge on Tabular Data to Knowledge Graph Matching) a été lancé afin de constituer un benchmark pour les systèmes d'interprétation sémantique des tables, en les évaluant sur des jeux de données et des tâches variés. Dans cet article, nous présentons TorchicTab, un système polyvalent d'interprétation sémantique des tables capable d'annoter des tableaux de structures diverses, en s'appuyant soit sur un graphe de connaissances externe comme Wikidata, soit sur des tableaux annotés avec des termes prédéfinis pour l'apprentissage. Nous évaluons notre système selon les différentes tâches d'annotation du défi SemTab. Les résultats montrent que notre système est capable de produire des annotations précises pour diverses tâches, sur des jeux de données variés.