HyperAIHyperAI
il y a 2 mois

Annotation de colonnes avec des modèles de langage pré-entraînés

Yoshihiko Suhara; Jinfeng Li; Yuliang Li; Dan Zhang; Çağatay Demiralp; Chen Chen; Wang-Chiew Tan
Annotation de colonnes avec des modèles de langage pré-entraînés
Résumé

L'inférence des métadonnées sur les tables, telles que les en-têtes de colonnes ou les relations entre les colonnes, est un sujet de recherche actif dans la gestion des données, car nous constatons que de nombreuses tables manquent de certaines de ces informations. Dans cet article, nous étudions le problème d'annotation des colonnes de table (c'est-à-dire la prédiction des types de colonnes et des relations entre les colonnes) en utilisant uniquement les informations contenues dans la table elle-même. Nous développons un cadre d'apprentissage multi-tâches (appelé Doduo) basé sur des modèles linguistiques pré-entraînés, qui prend l'ensemble de la table comme entrée et prédit les types de colonnes/relations à l'aide d'un seul modèle. Les résultats expérimentaux montrent que Doduo établit de nouvelles performances de pointe sur deux benchmarks pour les tâches de prédiction du type de colonne et de prédiction des relations entre colonnes, avec des améliorations allant jusqu'à 4,0 % et 11,9 % respectivement. Nous rapportons que Doduo peut déjà surpasser les performances précédentes de pointe avec un nombre minimal de jetons, seulement 8 jetons par colonne. Nous mettons à disposition une boîte à outils (https://github.com/megagonlabs/doduo) et confirmons l'efficacité de Doduo sur un problème réel en science des données grâce à une étude de cas.