TAPAS : Analyse de table supervisée faiblement par pré-entraînement

La réponse à des questions formulées en langage naturel sur des tables est généralement considérée comme une tâche de parsing sémantique. Pour réduire les coûts liés à la collecte de formes logiques complètes, une approche courante repose sur une supervision faible basée sur les dénotations plutôt que sur des formes logiques. Toutefois, l’entraînement de parseurs sémantiques à partir de supervision faible soulève des difficultés, et de plus, les formes logiques générées ne sont utilisées qu’à titre d’étape intermédiaire avant d’obtenir la dénotation. Dans cet article, nous présentons TAPAS, une méthode de réponse aux questions sur des tables sans génération de formes logiques. TAPAS est entraînée à partir de supervision faible et prédit la dénotation en sélectionnant des cellules de table, éventuellement en appliquant un opérateur d’agrégation correspondant à cette sélection. TAPAS étend l’architecture BERT pour encoder les tables en entrée, est initialisée à partir d’un pré-entraînement conjoint efficace sur des segments de texte et des tables extraites de Wikipedia, et est entraînée de manière end-to-end. Nous avons expérimenté sur trois jeux de données différents de parsing sémantique, et constaté que TAPAS dépasse ou égale les modèles de parsing sémantique, en améliorant le taux d’exactitude sur SQA de 55,1 à 67,2, tout en atteignant des performances équivalentes à l’état de l’art sur WIKISQL et WIKITQ, mais avec une architecture de modèle plus simple. Nous avons également observé que le transfert d’apprentissage, qui est trivial dans notre cadre, de WIKISQL vers WIKITQ, permet d’obtenir un taux d’exactitude de 48,7, soit 4,2 points de plus que l’état de l’art.