TaBERT : Préentraînement pour la compréhension conjointe des données textuelles et tabulaires

Les dernières années ont vu émerger un fort développement des modèles de langage préentraînés (LM) pour les tâches d’understanding du langage naturel (LN) basées sur le texte. Ces modèles sont généralement entraînés sur des textes libres en langage naturel, ce qui peut les rendre peu adaptés à des tâches telles que l’analyse sémantique sur des données structurées, qui exigent un raisonnement à la fois sur des questions en langage naturel libre et sur des données tabulaires structurées (par exemple, des tables de bases de données). Dans cet article, nous présentons TaBERT, un modèle de langage préentraîné qui apprend conjointement des représentations pour des phrases en langage naturel et pour des tables (semi-)structurées. TaBERT est entraîné sur un grand corpus comprenant 26 millions de tables et leurs contextes en anglais. Dans nos expériences, des parseurs sémantiques neuronaux utilisant TaBERT comme couches de représentation des caractéristiques atteignent de nouveaux meilleurs résultats sur le défi de benchmark d’analyse sémantique faiblement supervisée WikiTableQuestions, tout en se montrant compétitifs sur le jeu de données text-to-SQL Spider. Une implémentation du modèle sera disponible à l’adresse http://fburl.com/TaBERT.