TABBIE : Représentations préentraînées de données tabulaires

Les travaux existants sur l'apprentissage de représentations tabulaires modélisent conjointement les tableaux et le texte associé en utilisant des fonctions objectif auto-supervisées dérivées de modèles de langage pré-entraînés tels que BERT. Bien que cette pré-entraînement conjoint améliore les tâches impliquant des tableaux et du texte appariés (par exemple, répondre à des questions sur les tableaux), nous montrons qu'il sous-performe sur les tâches qui opèrent sur des tableaux sans aucun texte associé (par exemple, remplir des cellules manquantes). Nous élaborons un objectif de pré-entraînement simple (détection de cellules corrompues) qui apprend exclusivement à partir de données tabulaires et atteint l'état de l'art dans une série de tâches de prédiction basées sur des tableaux. Contrairement aux approches concurrentes, notre modèle (TABBIE) fournit des plongements (embeddings) de toutes les sous-structures du tableau (cellules, lignes et colonnes), et il nécessite également beaucoup moins de ressources informatiques pour être entraîné. Une analyse qualitative des représentations de cellules, colonnes et lignes apprises par notre modèle montre qu'il comprend les sémantiques complexes des tableaux ainsi que les tendances numériques.