Sato : Détection de Type Sémantique Contextuel dans les Tableaux

La détection des types sémantiques des colonnes de données dans les tables relationnelles est cruciale pour diverses tâches de préparation de données et de recherche d'information, telles que le nettoyage de données, l'appariement de schémas, la découverte de données et la recherche sémantique. Cependant, les approches existantes pour la détection soit fonctionnent mal avec des données sales, soit ne prennent en charge qu'un nombre limité de types sémantiques, soit échouent à intégrer le contexte tabulaire des colonnes ou encore dépendent de grandes quantités d'échantillons pour les données d'entraînement. Nous présentons Sato, un modèle hybride d'apprentissage automatique conçu pour détecter automatiquement les types sémantiques des colonnes dans les tables, en exploitant les signaux provenant du contexte ainsi que des valeurs des colonnes. Sato combine un modèle d'apprentissage profond formé sur un corpus tabulaire à grande échelle avec la modélisation de sujets et la prédiction structurée pour atteindre des scores F1 pondérés par le support et une moyenne macro de 0,925 et 0,735 respectivement, surpassant considérablement les performances actuelles de l'état de l'art. Nous analysons en détail les performances globales et par type de Sato, discutant de la manière dont chaque composante du modèle ainsi que chaque catégorie de caractéristiques contribue à ses résultats.