Synthétiser étape par étape : des modèles d’outils et des modèles LLM comme générateurs de données pour la VQA de graphiques basée sur le raisonnement

La compréhension des visualisations de données telles que les graphiques et les diagrammes nécessite une raisonnement à la fois sur les éléments visuels et sur les données numériques. Bien que les modèles actuels de réponse aux questions sur les graphiques (chart VQA) soient performants pour les questions extraitives, ils peinent face aux questions exigeant un raisonnement complexe. Dans ce travail, nous abordons ce manque de capacité de raisonnement grâce à une augmentation de données. Nous exploitons les grands modèles linguistiques (LLM), qui ont démontré une forte capacité de raisonnement, comme annotateurs automatiques de données, capables de générer des paires questions-réponses pour des images de graphiques. L’innovation clé de notre méthode réside dans la stratégie de synthèse pas à pas : notre générateur de données basé sur un LLM apprend à décomposer les questions complexes en sous-questions étape par étape (rationnelles), qui sont ensuite utilisées pour déduire la réponse finale à l’aide d’outils externes, par exemple Python. Ce processus de génération par étapes est entraîné sur des données synthétiques produites via une pipeline de génération de questions-réponses basée sur des modèles (templates). Les résultats expérimentaux mettent en évidence l’importance de la génération pas à pas proposée. En entraînant les modèles de chart VQA avec des données augmentées par LLM (LAMENDA), nous améliorons significativement leurs performances, atteignant l’état de l’art en précision sur les jeux de données ChartQA et PlotQA. En particulier, notre approche permet d’augmenter la précision du modèle précédent état de l’art de 38 % à 54 % sur les questions rédigées par des humains du jeu de données ChartQA, qui exigent un raisonnement fort. Nous espérons que ce travail souligne le potentiel des données synthétiques et encourage davantage d’exploration de l’augmentation de données à l’aide de LLM pour les tâches nécessitant un raisonnement intensif.