il y a 2 mois

TURL : Compréhension des tables par apprentissage de représentation

Xiang Deng; Huan Sun; Alyssa Lees; You Wu; Cong Yu

Résumé

Les tables relationnelles sur le Web stockent une quantité massive de connaissances. Grâce à l'abondance de ces tables, des progrès considérables ont été réalisés dans diverses tâches liées à la compréhension des tables. Cependant, les travaux existants reposent généralement sur des caractéristiques et des architectures de modèles spécifiques à chaque tâche, largement conçus par ingénierie. Dans cet article, nous présentons TURL, un cadre novateur qui introduit le paradigme d'pré-entraînement/affinage aux tables relationnelles du Web. Au cours de l'étape de pré-entraînement, notre cadre apprend des représentations contextuelles profondes sur les tables relationnelles de manière non supervisée. Le design universel de son modèle avec des représentations pré-entraînées peut être appliqué à une large gamme de tâches avec un affinage spécifique à la tâche minimal. Plus précisément, nous proposons un encodeur Transformer sensible à la structure pour modéliser la structure ligne-colonne des tables relationnelles, et nous présentons un nouvel objectif de récupération d'entités masquées (MER) pour le pré-entraînement afin de capturer les sémantiques et les connaissances dans les données non étiquetées à grande échelle. Nous évaluons systématiquement TURL avec un banc d'essai composé de 6 tâches différentes pour la compréhension des tables (par exemple, extraction de relations, remplissage de cellules). Nous montrons que TURL se généralise bien à toutes les tâches et surpass substantiellement les méthodes existantes dans presque tous les cas.