UniChart : Un modèle préentraîné universel pour la compréhension et l'interprétation des graphiques

Les graphiques sont très populaires pour analyser les données, visualiser les principaux éléments d'information et répondre à des questions complexes nécessitant une réflexion approfondie sur les données. Pour faciliter l'analyse de données basée sur des graphiques en utilisant le langage naturel, plusieurs tâches en aval ont été introduites récemment, telles que la réponse aux questions sur les graphiques et la synthèse des graphiques. Cependant, la plupart des méthodes qui résolvent ces tâches utilisent un préapprentissage sur des tâches linguistiques ou visuo-linguistiques qui ne tentent pas de modéliser explicitement la structure des graphiques (par exemple, comment les données sont encodées visuellement et comment les éléments du graphique sont liés entre eux).Pour remédier à cela, nous avons d'abord construit un corpus important de graphiques couvrant une grande variété de sujets et de styles visuels. Nous présentons ensuite UniChart, un modèle préapprenti pour la compréhension et le raisonnement sur les graphiques. UniChart encode le texte pertinent, les données et les éléments visuels des graphiques, puis utilise un décodeur de texte ancré dans le graphique pour générer la sortie attendue en langage naturel. Nous proposons plusieurs tâches de préapprentissage spécifiques aux graphiques, qui incluent : (i) des tâches de bas niveau pour extraire les éléments visuels (par exemple, barres, lignes) et les données des graphiques, et (ii) des tâches de haut niveau pour acquérir des compétences en compréhension et en raisonnement sur les graphiques.Nous constatons que le préapprentissage du modèle sur un corpus important avec des tâches spécifiques aux graphiques de bas et de haut niveau, suivi d'un apprentissage fin sur trois tâches en aval, conduit à des performances d'état de l'art sur ces trois tâches en aval.