TAPEX : Pré-entraînement de table par l'apprentissage d'un exécuteur SQL neuronal

Les progrès récents dans le pré-entraînement des modèles de langage ont connu un grand succès grâce à l'exploitation de données textuelles non structurées à grande échelle. Cependant, il reste un défi d'appliquer le pré-entraînement sur des données tabulaires structurées en raison du manque de données tabulaires de haute qualité et à grande échelle. Dans cet article, nous proposons TAPEX pour montrer que le pré-entraînement des tables peut être réalisé en apprenant un exécuteur SQL neuronal sur un corpus synthétique, qui est obtenu par la synthèse automatique de requêtes SQL exécutables et de leurs résultats d'exécution. TAPEX répond au défi de la rareté des données en guidant le modèle de langage à imiter un exécuteur SQL sur un corpus synthétique diversifié, à grande échelle et de haute qualité. Nous évaluons TAPEX sur quatre jeux de données de référence. Les résultats expérimentaux montrent que TAPEX surpass les approches précédentes de pré-entraînement des tables avec une marge considérable et atteint de nouveaux résultats d'état de l'art sur tous ces jeux de données. Cela inclut des améliorations sur la précision faiblement supervisée WikiSQL (89,5 % (+2,3 %)), la précision WikiTableQuestions (57,5 % (+4,8 %)), la précision SQA (74,5 % (+3,5 %)) et la précision TabFact (84,2 % (+3,2 %)). À notre connaissance, c'est le premier travail à exploiter le pré-entraînement des tables via des programmes exécutables synthétiques et à obtenir de nouveaux résultats d'état de l'art sur diverses tâches en aval. Notre code est disponible à l'adresse suivante : https://github.com/microsoft/Table-Pretraining.