MatCha : Amélioration de la préformation visuelle et linguistique avec le raisonnement mathématique et la dérenduisation des graphiques

Les données visuelles et linguistiques, telles que des graphiques, des diagrammes et des infographies, sont omniprésentes dans le monde humain. Cependant, les modèles vision-langage de pointe ne parviennent pas à bien traiter ces données. Nous proposons MatCha (préformation au raisonnement mathématique et à la décomposition de graphiques) pour améliorer les capacités des modèles visuels et linguistiques à modéliser conjointement des graphiques/diagrammes et des données linguistiques. Plus précisément, nous proposons plusieurs tâches de préformation qui couvrent la déconstruction de graphiques et le raisonnement numérique, qui sont les compétences clés en modélisation visuelle et linguistique.Nous effectuons la préformation MatCha à partir de Pix2Struct, un modèle vision-langage récemment proposé pour la conversion d'images en texte. Sur des benchmarks standards tels que PlotQA et ChartQA, le modèle MatCha surpasse les méthodes de pointe actuelles avec une amélioration pouvant atteindre près de 20 %. Nous examinons également la capacité du préentrainement MatCha à se transférer vers d'autres domaines tels que les captures d'écran, les schémas de manuels scolaires et les figures de documents, observant une amélioration globale. Ces résultats confirment l'utilité du préentrainement MatCha pour une gamme plus large de tâches en traitement du langage visuel.