Watchog : un cadre léger basé sur l'apprentissage contrastif pour l'annotation de colonnes
Les tables web relationnelles constituent des ressources précieuses pour de nombreuses applications ultérieures, ce qui fait du traitement des tables, et plus particulièrement de l’annotation de colonnes—qui consiste à identifier les types sémantiques et les relations des colonnes—un sujet de recherche très actif dans le domaine de la gestion des données. Malgré les efforts récents visant à améliorer diverses tâches de compréhension des tables grâce à la puissance des grands modèles linguistiques pré-entraînés, les méthodes existantes restent fortement dépendantes de grandes quantités d’exemples étiquetés de haute qualité, tout en continuant à souffrir du problème de rareté des données, en raison de la distribution déséquilibrée des classes. Dans cet article, nous proposons le cadre Watchog, qui exploite des techniques d’apprentissage contrastif pour apprendre des représentations robustes des tables à partir d’un grand corpus non étiqueté de tables, avec un surcoût minimal. Notre approche permet aux représentations apprises de mieux soutenir le fine-tuning, nécessitant bien moins d’exemples étiquetés supplémentaires que les méthodes antérieures pour les tâches d’annotation de colonnes en aval. Par ailleurs, nous proposons également des techniques d’optimisation spécifiques aux cadres semi-supervisés. Les résultats expérimentaux sur des jeux de données standards montrent l’efficacité de nos techniques dans deux tâches d’annotation de colonnes, sous différentes configurations. En particulier, notre cadre Watchog atténue efficacement le problème d’imbalanced des classes dû à une distribution des étiquettes en queue longue. Dans un cadre semi-supervisé, Watchog surpasse la meilleure méthode connue de jusqu’à 26 % et 41 % en scores F1 Micro et Macro, respectivement, sur la tâche de détection de types sémantiques.